阅读视图

12 - 南京师大比特人文公众号

安波龙从军 | AI时代中国语言知识库构建：理论与方法

2026年5月9日 11:10

云南师范大学学报 2026-05-09 11:10 江苏

分享一篇文章

云南师范大学学报哲社版: 安波龙从军 | AI时代中国语言知识库构建：理论与方法

人工智能快速发展，使语言研究从依赖少量材料与经验判断，转向需要在海量真实语料中进行系统检验与归纳。相比“只把材料收集起来”的传统语料库，文章主张建设面向汉语及我国少数民族语言的“中国语言知识库”。

安波，男，中国社会科学院副研究员，博士，中国社会科学院大学硕士生导师，研究方向为自然语言处理。

龙从军，男，中国社会科学院研究员，中国社会科学院大学教授，博士，博士生导师，研究方向为计算语言学、语料库语言学、数字人文。

一、引言

进入人工智能时代，语言研究正在经历明显的转向。随着大规模语言模型应用的日益广泛，依赖少量材料与研究者直觉的传统路径，越来越多地让位于基于海量语言材料的检验、比对与归纳。近年来教育主管部门启动国家关键语料库建设计划，提出到2027年基本建成国家语言文字大数据中心和战略资源库，希望更充分释放语言数据在经济社会发展与人工智能应用中的价值。

不过，从目前情况看，语言资源建设仍主要停留在语料库层面，即以尽可能多地汇集原始文本与语音材料为主，供研究与模型训练使用。仅有语料库，尚不足以回应人工智能时代对语言知识的更高要求：其一，大模型的学习基础仍以英语等资源丰富语言为主，资源不足语言在数字世界中更容易被忽视。其二，缺少对语言现象更细致、更加一致的标注与整理，使得材料难以上升为可反复核验、可系统利用的知识，也就难以支撑对语言规律的深入把握。还有研究显示，网络知识资源对资源不足语言的覆盖不够，会进一步加剧这些语言在数字时代的弱势处境。大语言模型对语言学提出了严峻挑战，但同时也是语言学发展一个千载难逢的机会。

因此，有必要在汇集材料的基础上建设面向人工智能应用的中国语言知识库，在汇集材料的基础上，系统整合汉语及我国少数民族语言的文本、录音与影像等资料，并通过严格的标注、编目与关联，把分散的语言材料整理为便于检索、比对与追溯的知识资源，从而推动语言资源的深度开发。此项工作不仅具有学术意义，可为语言学理论研究提供更坚实的数据支撑，而且具有现实价值，既能服务于濒危语言与方言的记录和保护，又能为资源不足语言的智能处理提供更可靠的训练材料与评测依据，推动技术发展走向更充分的多样性与包容性。下文将在引言提出问题的基础上，依次讨论相关概念界定、总体设计、建设方法、理论依据、应用前景以及治理与伦理等议题。

二、学理基础与范围界定

建设面向人工智能时代的中国语言知识库，首先需要厘清学理立场与讨论范围。语言研究的许多争论，往往并不出在概念本身，而出在材料是否充分、语境是否清楚、结论能否复核。尤其在大数据与自动化处理日益普及的今天，更需要强调一种朴素而关键的学术态度，任何关于语言的概括，都应以可核验的材料为前提，并尽可能保留回到原始语境的路径。本文提出知识库构想，正是希望在材料积累与知识归纳之间建立更稳固的连接，使语言研究能够在更丰富的证据基础上展开，也使相关成果能够经得起反复检验与持续更新。

这一立场与语言学中重视材料与语境的传统是一致的。无论是对汉语方言与少数民族语言的记录整理，还是对历时文献的训诂考释，学术工作都离不开对真实话语的保存、转写、译注与解释。材料越扎实，研究越能避免凭印象下结论；语境越清楚，解释越不易滑向抽象化的空谈。与此同时，语料研究的发展也表明，大规模、成系统的语言材料能够揭示许多基于少量例证难以发现的规律，并为既有理论提供更严格的检验条件。

本文同样强调多语言并置的视角。中国语言生活的基本事实，是多样性与多层次并存，既有以汉语为主体的普通话与各地方言土语，也有数量可观、类型各异的少数民族语言；既有当代活态语言，也有承载历史演变信息的文献材料。若只以单一语言或单一体裁作为默认对象，许多对比性的线索就会被遮蔽，许多看似普遍的结论也可能只是某一范围内的局部现象。因此，本文所说的中国语言，取其广义，指中国境内使用的各类语言资源，包括现代汉语及其方言土语，也包括藏语、维吾尔语、蒙古语、壮语、苗语等少数民族语言及其地区变体；同时兼顾历史阶段材料与当代材料。这样界定，是为了让知识库建设从一开始就具备兼容多样、便于对比的格局，使汉语研究与少数民族语言研究能够在同一平台上共享方法与资源，并在必要时实现互证与互释。

在明确对象范围之后，还需要说明本文为何要提出知识库这一建设方向。过去的语言资源建设多以语料库为中心，其贡献不可忽视，大量文本、录音与转写的汇集，为研究与模型训练提供了基础。但语料库往往更强调材料的收纳，而较少承担材料的系统整理。在人工智能时代，尤其在资源不足语言面临数字可见度下降的背景下，仅有材料的堆积仍显不足。许多语言现象如果缺少较为一致的切分、释义、译注与结构整理，研究者很难在大规模材料中稳定地检索与比较。本文所说的知识库，意在保存原始材料的基础上，进一步把材料中的词汇、语法与结构信息较为明确地整理出来，并以可追溯的方式组织呈现。它要求结论始终能够回到材料，读者不仅看到解释，还能看到依据；不仅看到归纳，还能检索到代表性例证与原始语境。这样，知识生成过程更透明，学术讨论也更容易回到可核验的材料层面。

与此相关的是本文对整理与标注的理解。所谓高质量整理，强调标准明确、口径一致，并经过必要的校订。对于书面材料，至少应在词语边界、词类属性、句子结构等方面做到清楚。对于口语材料，还需要有可靠的转写，并尽可能保留语音与语境信息，以便研究者在需要时回听核对。对于跨语言材料，译注与解释需要尽量可对照、可复核，避免译文与原文之间缺乏依据。尤其在少数民族语言整理中，常见把同一段话的原文、转写、切分、解释与译文按行排列并对齐，使读者可以顺着对应关系理解分析过程与翻译依据。这种做法的重要之处在于它把材料、分析与解释放在同一处，减少只见结论不见依据的问题，也为跨语言对照研究提供了较为直观的支撑。本文采用这一整理方式，目的在于提升材料的可读性与可检验性。

最后，需要交代本文对语言材料形态的基本态度。语言并不只存在于书面文本之中，许多关键现象依赖语音、语调、停顿与交际场景，甚至依赖表情、手势与共同注意的对象。对濒危语言与方言而言，音视频材料往往是保存语言实践的不可替代依据。因此，知识库将把文字、录音、影像与图片等资料纳入同一框架，并尽可能保留它们之间的对应关系。这样做的意义在于：研究者在阅读转写与解释时，可以回到录音影像核对细节。在讨论某些文化负载较强的词汇与表达时，也能借助场景与图像更准确地把握其所指与用法。多种材料形态的并置是为了让语言事实更完整、更可核验，从而为后续的比较、归纳与应用提供更可靠的基础。

综上所述，本文的学理基础可以概括为：一是以材料与语境为中心，强调结论可追溯、可复核；二是以中国语言生活的多样性为前提，强调多语言并置与可比性；三是在语料汇集之上推进系统整理，使语言事实能够转化为便于检索、对照与持续更新的知识资源。

三、中国语言知识库的总体构想

中国语言知识库，旨在回应人工智能时代语言研究与语言应用对可靠材料和可用知识的双重需求。所谓总体构想，就是要形成一种可长期积累、持续更新、便于检索比对并能随时回到语境核验的学术基础设施。它既要充分保存语言事实的原貌，又要把分散的语言现象整理成可供研究者反复调用的知识资源，从而避免材料与解释相互脱节，也避免只有概括而缺少证据支撑的情况。

这一构想的核心，是用清晰的层次把“保存材料”“整理材料”“归纳知识”三类工作区分开来，并在三者之间建立稳定的回溯通道。具体而言，知识库可概括为证据层、标注层与知识层的三层结构。证据层负责把语言事实保存完整并说明来源，标注层负责把材料整理得便于检索与核验，知识层则在可靠整理的基础上形成较为稳定的词汇、用法与结构性条目，并把条目与证据对应起来，使读者能够由结论返回用例，再返回语境。

为了让回到材料成为一种可日常操作的能力，知识库在组织上需要确定一个较为清楚的基本单位。本文倾向于以语言片段为基本组织单位，这里的片段既可以是一句话、一个话轮，也可以是一段短小的叙事或一则对话片段。重要的不在于单位大小，而在于它能够携带足够的语境信息，并能与相关材料对应。每一个语言片段应当与其出处相连：出自哪一部文献，采集于何时何地，由谁说出或写下，处于何种交际场景，是否为口语转写，是否有音视频可回听回看。这样，片段不再是孤立的句子，而是带着语境的材料条目。只有把这一步做扎实，后续的整理与归纳才不会成为脱离语境的抽象。

（一）证据层

证据层所承担的任务，是尽可能保留语言事实的原貌，并确保材料来历清楚、可核验。证据层不仅收纳书面文本，也应当包括录音、口述故事、会话影像、手语视频以及与语言使用相关的图片资料。对人文学者而言，证据层最重要的不是数量，而是可用性，一份材料是否能支撑分析，往往取决于语境是否清楚、出处是否明确、版本是否可靠、记录是否完整。文本材料需要说明来源与版本，口语材料需要说明采集过程与说话人背景，影像材料需要说明场景与参与者关系，图片材料需要说明对象指认与拍摄情境。证据层还应当尽量保留材料的内部结构，例如篇章边界、段落结构、会话轮次、说话人切换、停顿与重叠等，以免在后续转写与整理中把语言实践的关键线索消解掉。

证据层的另一项关键工作，是在材料收集与入库阶段尽量兼顾代表性与多样性，使知识库能够反映较为真实的语言生态，而不至于受某一类材料影响而产生偏差。汉语材料既需要兼顾历史文献与当代文本，也需要兼顾不同体裁与不同使用场景；汉语方言与少数民族语言材料则尤其需要兼顾不同地域、不同代际与不同交际场景，因为许多用法与词汇只在特定场景中出现。证据层如果过于集中于某一类文本，例如大量书面材料而缺少口语材料，就会导致后续知识归纳偏向书面用法；若口语材料只来自少数说话人或单一场景，也会使许多社会变异与语域差异难以呈现。因此，证据层的构建应当有基本的采集规划与补足机制，做到“看见欠缺、能够补足”，从而为标注层与知识层提供更稳固的基础。

（二）标注层

标注层的作用是把材料整理得更便于检索、对照与讨论。这里的标注应理解为学术意义上的整理与注释。整理的目标，是让研究者能够更快地定位现象、更可靠地比较材料、更清楚地复核解释。就文本材料而言，至少需要对词语边界、词类属性、句子结构等做相对一致的处理。就口语材料而言，首先需要有可靠的转写，并尽可能保留与录音影像之间的对应关系，使读者在对某一处切分、某一处理解存疑时能够回听核对。就跨语言材料而言，需要有可对照的译注与解释，尽量让译文与原文之间的对应关系清楚可查。标注层的任务是在尽量不损失语境信息的前提下，把材料中可讨论的语言信息标示出来。

在标注层的组织方式上，少数民族语言记录整理形成了一种颇为有效的传统，即将同一段话的不同层次信息按行排列并对齐。通常先呈现原文，再转写，随后做切分并附以必要的语法说明，再给出逐词解释与整句译文。它的意义是把材料、分析与翻译放在同一处，使读者可以顺着对齐关系逐步核对，某个成分为何这样切分，某个意义为何这样解释，译文的选择依据何在，都能在同一条材料中找到线索。对学者而言，这种呈现方式格外重要，因为它保留了研究过程的可见性，使解释能够在材料层面接受检验。知识库将吸收这一标注方式的优点，并根据不同材料类型作调整，使其既适用于少数民族语言资料，也适用于汉语方言材料与部分历史文献材料的整理，从而增强不同语言材料之间的可比性。

标注层的内容可概括为3个方面的整理：其一是语言形式的整理，处理词语边界、词类标注、句子结构、必要的语音信息与转写规范等，使材料在形式层面可检索、可统计、可对照。其二是意义与用法的整理，处理词义辨析、指代关系、语境功能以及译注说明等，使材料在解释层面可理解、可讨论、可复核。其三是语境与文化信息的补充，针对与社会生活、礼貌策略、习俗传统密切相关的表达，适度说明其使用场景与背景线索，使解释不至于脱离真实语言生活。

标注层还必须重视一致性与可校正性。所谓一致性是要求对同类现象尽量采用可重复的处理方式，并把例外情况的处理原则说清楚。面对真实语言材料，含混与不确定常常不可避免，例如口语材料中的省略、重复、纠错，历史文献中的异文异读，方言材料中的变体与摇摆。知识库允许在标注层中保留必要的说明，例如对可疑处作出注记，对不同的可能解释并列呈现，对后续可修订之处保留修订空间。如此，标注层不仅为机器提供训练材料，更重要的是为学术讨论保留可以被质疑、可以被修正的入口，使知识库能够在共同体的检验与积累中逐步提升质量。

（三）知识层

知识层是在证据与标注的基础上形成的归纳成果。它的目标是帮助研究者从海量材料中更快定位关键现象，并把相对稳定的规律整理成便于查询与引用的条目。知识层可以包含多种类型的成果，但其共同要求是与证据保持可追溯联系。词汇方面，可以形成较规范的词条信息，包括读音、写法、意义、常见搭配与代表性用例。少数民族语言部分则可形成双语对照的词汇整理，并标明来源用例与语境条件。语法与用法方面，可以归纳常见句式与结构特点，给出典型例句，并指出其适用范围与常见变体。跨语言对照方面，可以整理同一概念不同语言的表达方式，或整理常见的对应关系与译法差异，便于比较研究。文化与专题方面，则可围绕特定领域与主题整理术语与相关表达，例如传统生活、民间信仰、地方制度等，使知识库能够在学术研究之外，服务于教育与文化传播的需要。

需要特别强调的是，知识层的“归纳”应当是一种建立在证据之上的归纳。它不宜只给出抽象结论，而应以代表性用例支撑，并提供返回证据的路径。对学术研究而言，一条结论的可信度往往取决于其证据链条是否清楚，它基于哪些材料，材料分布是否广泛，用例是否典型，是否存在反例与限制条件。知识层若能把这些信息尽可能透明地呈现出来，就能显著提升其学术可用性。研究者在引用某一条目时，可以直接查看其代表性例句与出处；在质疑或补充时，也能在证据层找到相近材料继续讨论。如此，知识库中的条目不再是被固定的答案，而是可以在共同体使用中不断完善的研究节点。

证据层、标注层与知识层三层之间的贯通，是这一总体构想能否成立的关键。如果只是并列堆放，知识库仍可能沦为材料仓库或结论合集。本文强调的是一种双向贯通的关联：一方面，知识层中的条目应当能指向标注层中的代表性材料，再指向证据层中的原始语境。另一方面，证据层中的材料也应当能反向连接到相关的整理结果与知识条目，使读者在阅读材料时能够迅速看到相关解释与归纳。这样的贯通机制，既能提升检索效率，也能保持解释与材料的紧密连接。

由于本文强调文字、录音与影像等不同形态资料的并置，三层结构的贯通还应体现为材料之间的相互印证。对口语材料而言，文字转写只是进入分析的入口，许多重要信息仍保存在语音与场景之中。若知识库能够把转写与录音和影像对应起来，研究者就能在讨论某一处停顿、某一处语调、某一处含混时回到原声，避免仅凭文字作判断。对一些文化负载较强的表达而言，图片与场景说明也能显著减少误解，使语言解释更接近生活世界。这样的安排是把“可回听、可回看、可回查”的学术常识落实到知识库结构之中，使材料真正成为可持续使用的研究资源。

中国语言知识库的总体构想可以概括为：以可追溯的材料保存为根基，以较为一致的整理与注释为桥梁，以建立在证据之上的归纳条目为成果，并在三者之间构建双向可追溯的关联通道。它既尊重语言事实的复杂性，也尽力提供可用、可查、可核验的知识资源。这样的构想之所以必要，是因为它把传统人文学术中重证据、重语境、重可复核的要求，转化为一种可长期运行的资源形态，使语言研究能够在更广阔的材料基础上持续推进，也为语言记录、教育传播与智能应用提供更可靠的共同资源。在此总体构想之下，下面将进一步讨论建设方法与质量保障，说明如何在采集、整理、校订与更新等环节上形成可操作的流程，使上述设想能够落地实施并稳定运行。

四、建设方法与质量保障

中国语言知识库的建设，归根结底是一项以材料为中心的长期工作。与一次性资料汇编不同，它必须在持续积累中逐步形成稳定的工作流程，使材料能够被可靠保存，使整理结果能够被反复使用，使由材料归纳出的知识条目能够经得起检验。进入人工智能时代，知识库建设又多了一层现实条件，一方面，语言数据的来源更加多样，规模更大，单靠人工从头到尾处理，成本高、周期长。另一方面，语音识别、文字识别、分词、机器翻译等工具日益成熟，为先粗后细、层层校订的整理路径提供了新的可能。本文强调，技术的价值不在于替代学术判断，而在于承担大量重复性工作，把研究者从体力劳动中解放出来，从而把更多精力投入标准制定、疑难处理与质量把关之中。换言之，应当形成一种更符合人文学术传统的工作原则，机器负责生成初稿与提示线索，人工负责核验、修订与解释；技术手段用于扩展规模与提高效率，学术规范负责控制误差与维持可复核性。

知识库建设的第一环节是材料采集与入库。此处最需要警惕的是材料来源不清、语境缺失、结构偏斜。无论是书面文本、录音影像还是图片资料，都应在入库时配有必要的背景说明，例如来源与版本、采集时间地点、说话人或作者的基本情况、交际场景与话题类型、是否经过整理加工、是否存在公开限制等。对于口语与田野材料而言，语境信息往往比文字本身更关键，因为大量用法依赖说话人关系、场景约束与非语言线索；对于历史文献材料而言，版本与出处决定了可引用性与可比性。这里的入库规范应当尽量简明、可执行，强调可追溯而非面面俱到，但凡可能影响理解与引用的信息，都应尽量在入库阶段记录下来。技术上，可以通过统一的入库模板来约束填写项，并为每份材料分配稳定标识，使后续的转写、译注、抽取与发布能够持续引用同一来源，而不是在不同环节重复生成相互割裂的编号体系。

在采集与入库阶段，人工智能可以发挥两类辅助作用。其一是帮助发现材料。其二是帮助“初步分拣”。对海量文本可先做体裁识别、语言或方言线索识别，对音视频可先做时长统计与音质评估，对图片可先做内容标签提示，以便在后续整理中优先处理高价值、代表性强的材料。需要强调的是，这些自动分拣只能作为线索，最终仍需人工抽查核验，以免算法偏差在早期就影响材料结构。

第二环节是材料数字化与基础清理。中国语言知识库必然涉及大量纸质文献、地方志、辞书资料以及社区内部保存的文本影印件，也可能涉及传统文字或多种书写体系。文字识别在这里可以显著降低人工录入成本。对印刷体材料，可使用通用的文字识别工具先生成可编辑文本，再由人工校对。对版式复杂的文献，可结合版面分析先分栏分段，再进入识别与校对；对质量较差的扫描件，可先进行图像清理与倾斜矫正，提高识别效果。对民族语言文本，若存在多文字体系并存的情况，如同一材料同时出现本民族文字与转写体系，文字识别可先处理可识别部分，再由人工补全难识别部分。无论采用何种工具，校对都不应被视作“补救措施”，而应被纳入正式流程，对于将被频繁引用的核心材料，可采用双人校对或抽样复核，并记录典型错误类型，形成可复用的校对规则与替换表。只有把“识别 - 校对 - 留痕”做成稳定机制，数字化成果才能成为可持续使用的学术资源，而不是一次性成果。

第三环节是语音材料的转写与对齐。对汉语方言与少数民族语言而言，录音与影像往往是最珍贵的证据。传统做法依赖人工逐句听写，质量高但周期长。人工智能在此处最直接的贡献，是语音识别可以提供转写初稿，并且能够把音频切分成较小单位，帮助整理者更高效地定位与复核。需要看到的是，语音识别并非一经调用就能直接生成准确文本，尤其面对口音差异大、背景噪声强、夹杂多语或代码转换的材料时，错误不可避免。因而更合理的策略是把语音识别定位为辅助生成初稿与时间信息的工具，让人工把关与修订成为正式环节。具体流程可以是先用语音活动检测将长录音切分为较稳定的语段，再用语音识别生成每段的初步转写，同时保留每段的时间位置。整理者在界面上边听边改，系统记录修改点与错误类型，形成可复核的修订痕迹。对于对话材料，还应尽量区分不同说话人，以免转写混淆语境。即便自动分离说话人不够准确，也可以让整理者在关键段落手工校正，从而保证后续分析所需的“话轮结构”。

在低资源语言与方言场景中，通用语音识别工具常常效果有限。此时，多语种预训练模型提供了重要的起步能力。与此同时，也要清醒认识其局限，模型可能把相似音段误识为另一种语言或另一种常见词形，可能在专名、文化词、罕见词处频繁出错，也可能因为训练数据结构偏差而对某些口音的识别能力较弱。因此，知识库建设中使用此类模型，应当把重点放在辅助转写与对齐，而不是把输出直接当作可发布文本。

与转写密切相关的，是语音与文本的对应关系。学术研究强调回到材料，在口语研究中尤其体现为回听核对。因此，知识库应当尽量在转写文本中保留与音频或视频的时间对应，使研究者能够从一句转写快速跳回到原始语境。即便不追求逐字级的精细对应，至少做到句子或话轮级的对应，也能极大提升材料的可核验性。对齐工具可以在此发挥辅助作用：在已有转写的基础上，让系统自动估计每句在音频中的起止位置，再由人工抽查校正。对于将被反复引用的典型材料，可进一步细化对应粒度，使关键语段在学术引用中更易定位。这种对应机制并非技术展示，而是一种方法论要求的落实，它把证据链从理念变成可操作的实现机制，使读者不必依赖整理者的个人信誉，而可以依靠材料本身完成核验。

第四环节是文本材料的基础处理与检索准备。知识库面对的是海量文本与多语材料，若缺少基本的文本处理，检索与比对将困难重重。这里的技术手段主要包括分词、词类初判、专名识别与句子切分等。对汉语而言，分词工具可以提供初步切分，但分词本身在不少边界处存在争议，尤其在古汉语与方言材料中更是如此。因此，知识库建设不宜把分词结果视为真理，而应将其视为可修订的初稿。更稳妥的方式是：先用工具生成初稿，再由整理者依据统一规范进行校订；对争议较大的边界处，可保留注记或并列方案，并在规范中写明处理原则。对少数民族语言而言，词形变化较丰富或构词结构较复杂时，单纯套用通用分词往往不可靠，需要结合该语言的实际情况制定切分原则，并逐步积累词表与构词模式，反过来改善工具的提示能力。这里体现出知识库建设“人机协作”的路径：工具的价值在于提高初始效率，规范与积累的价值在于不断提升一致性与可比性。

第五环节是翻译与跨语言对应。中国语言知识库不仅服务单语研究，更重要的是为多语言并置与比较提供基础。对少数民族语言材料而言，译注往往是知识库可用性的关键；对方言材料与历史文献材料而言，现代汉语释义与语境说明同样重要。机器翻译在此可以承担“提供译文草稿与对照线索”的角色，尤其在材料规模较大、需要快速形成可读译文以便初步检索时，机器翻译能显著提高效率。但机器翻译的输出必须被视为“需要核验的草稿”，尤其在文化负载词、礼俗用语、隐喻表达、话语语气等方面，机器翻译常常会误解或过度直译。更稳妥的流程是：先用机器翻译生成整句译文草稿，再由熟悉语境的整理者校订，并在必要时补充逐词解释或关键成分说明；对反复出现的核心词汇与固定搭配，可建立双语词表与例句库，让后续翻译能在一致译法基础上推进，避免同一词在不同材料中译法漂移。对于资源不足语言，还可以结合前述多语种预训练模型与已有小规模双语资料，通过迭代方式逐步改进翻译质量，但无论如何，最终译注都应保留可回到原文核验的路径，避免“译文替代材料”的风险。

在翻译工作中，按行对照的呈现方式仍具有重要意义。把原文、转写、切分、必要的解释与译文放在同一处，不仅对读者友好，对质量控制也友好。机器翻译与自动对齐工具可以辅助生成初步对照关系，例如提示某个词或短语在译文中可能对应的位置，但对照关系最终仍需人工确认。对照越清楚，越能减少“译文看似通顺却与原文脱节”的问题，也越有利于后续跨语言检索与比较研究。这里的关键仍是可核验：译文不只是读者理解内容的桥梁，也应当成为研究者讨论语言结构与意义的可操作入口。

第六环节是质量控制体系的建立。知识库的生命在于可信度，而可信度来自可检验性与一致性。质量控制不应只发生在最后发布前的抽检，而应贯穿材料采集、转写整理、译注校订与知识归纳的全过程。采集阶段要检查来源信息是否完整、授权边界是否明确、材料是否符合预定范围；转写阶段要检查关键材料是否完成复核，常见错误是否被记录并反馈到规范中；分词与基础处理阶段要检查处理口径是否统一，对争议处是否有注记与处理原则；译注阶段要检查核心词汇与固定表达是否保持译法一致，对文化负载内容是否有必要说明。对将被高频使用的核心材料，可以采用更严格的复核制度。质量控制的目标并不是把所有材料做到同等精细，而是把关键材料做到可靠，把整体材料做到可用，并让误差的分布与边界对使用者透明。

为了让质量控制可执行，知识库应配套可读的规范文档与示例库。规范文档不宜停留在原则层面，而应以问题驱动的方式给出操作流程，例如口语中的重复与自我修正如何处理，历史文献的异体字与异文如何记录，方言中的变体如何呈现，双语译注如何保持一致。示例库则把典型难点案例整理出来，形成可供训练与讨论的公共参照。技术工具生成的初稿与人工修订的痕迹，也应当成为示例库的重要来源：一方面，示例能帮助新成员快速掌握处理规范；另一方面，示例也能让工具开发与参数调整更有针对性。随着建设推进，规范与示例应允许修订，但每次修订都应留下记录，并说明变动原因。

第七环节是版本管理与成果发布。作为学术基础设施，知识库必须提供清晰的版本概念，使研究者能够指明使用的是哪个版本，并在资源更新后仍可追溯到当时使用的材料与整理结果。较为稳妥的做法是分期发布：每次发布一个相对稳定的版本，配套版本说明，说明新增材料范围、整理层次、规范变动与已知问题；旧版本应保留归档，不应被覆盖删除。对外发布时，还应提供必要的统计概况与使用说明，让使用者了解材料分布、语言覆盖、体裁结构、整理深度与抽检情况，从而在引用与解释时把握边界。技术上，可以为材料与条目配置稳定标识，便于长期引用与互相链接。对音视频片段的引用，也应尽量提供可指认的时间位置或片段编号，使回到原始材料的核验成为可能。对于技术工具输出参与较多的部分，更应在文档中说明其生成与校订流程，避免使用者误把草稿层结果当作终稿。

第八环节是纠错、反馈与持续更新。知识库一旦进入使用，就必然会遇到新材料纳入、旧材料更正、译注修订与规范调整。确保更新机制透明，是质量保障的重要组成部分。知识库应提供反馈通道，鼓励使用者报告错误或提出补充建议；内部应有处理流程，对反馈进行核实、分类与处置；对重要更正应在后续版本说明中公开列出，使学术共同体能够了解资源变化。对于争议较大的解释，可以保留讨论记录，必要时并列呈现不同观点，并标明依据差异。这样做并不削弱知识库的权威，反而更符合人文学术的真实面貌：许多问题本就需要在材料检验与学术讨论中逐步澄清。透明的修订史使知识库成为可以共同建设的公共资源，而不是不可讨论的既定结论集合。

在持续更新中，还需要兼顾新材料吸纳与新旧可比。当代语言变化迅速，网络语言、新词新用法层出不穷；少数民族语言与方言材料也会随着记录深入而出现新的话语类型与新的语境。知识库若要保持活力，就必须不断扩展材料类型与覆盖面。但扩展的同时，应保留对旧材料的可比性，使研究者能够追踪变化而不失参照。这要求更新策略区分扩容式更新与修订式更新：前者侧重纳入新材料与新条目，后者侧重更正错误、统一口径、补足说明。每一次更新都应留下清晰记录，使研究者能够理解变化发生在哪里、为何发生，从而在研究解释中把资源变化纳入考虑。

综上所述，融入人工智能技术是要在坚持人文学科证据意识与语境意识的前提下，使用语音识别、文字识别、分词与机器翻译等工具，把初稿生成、人工校订、规范沉淀，版本发布真正落到实处。特别是在资源不足语言场景中，多语种预训练模型如MMS等为从零起步提供了现实路径，使大量口语材料能够更快进入可整理、可检索状态。而人工复核与规范建设则确保这些工具不会把误差放大为“知识”。当技术与学术规范良性配合，知识库才能既具规模扩展的能力，又具学术可信的底线，最终成为能够长期积累、持续更新、经得起检验的语言研究基础设施。

五、学术价值、应用前景与治理伦理

中国语言知识库的意义，不仅在于增添一种新的资源形态，更在于它把语言研究中长期存在的若干难题，以更可操作、更可检验的方式重新组织起来。过去相当多的语言学讨论，受制于材料分散、语境缺失、例证难以复核，往往停留在举例说明层面，难以形成可持续积累的共同基础。人工智能时代又进一步放大了这一矛盾：一方面，语言技术发展需要更大规模、更高质量、结构更清晰的语言资源。另一方面，如果缺少系统整理与可靠证据，技术系统很容易在偏斜的数据上学习并放大偏差，使资源不足语言在数字世界中更加边缘。中国语言知识库的构想，正是在学术研究与现实需求的交汇处提出：它既要服务语言学的理论探索，也要为方言与民族语言的记录保护提供更稳固的载体，并在合规与审慎的前提下，为语言技术、教育传播等提供可用资源。以下从学术价值、应用前景与治理伦理3个方面，进一步说明这一知识库的可能贡献与应守边界。

就学术价值而言，知识库最直接的作用，是为语言研究提供更扎实的证据基础，并把可检验真正落实到研究过程之中。音系、语法、语义、语用、历时演变与类型比较等领域的研究，都需要大量真实材料作为支撑。仅有材料数量并不足以保证研究质量，关键在于材料是否可追溯、是否带语境、是否便于检索与对照。知识库在证据层保存原始文本与音视频，并在标注层提供较一致的整理与译注，使研究者可以在同一平台上进行跨体裁、跨场景、跨地域的检索与比较，降低研究成本。更重要的是，知识层将把反复出现的词汇、用法与结构性现象整理为条目，并保留回到代表性例证的路径，从而使研究者在提出概括时更容易检查其证据分布，避免因少量例证而过度泛化。对学术而言，这种将依据公开呈现出来的资源形态，能够显著提升讨论的效率。争论可以更快回到材料层面，分歧也更容易定位到语境差异、材料范围差异或处理口径差异，而不至于停留在各执一词的判断。

在历时与区域研究中，知识库的价值尤为明显。汉语历史材料浩繁且版本复杂，方言材料又常常零散分布于调查记录、地方志与研究论文中，学者在跨时期、跨地域比较时常面临“材料难找、形式难对齐、解释难复核”的障碍。若知识库能够把不同时期的文献材料纳入统一的保存与整理框架，并对关键现象保留可追溯的例证链条，研究者就更容易进行大范围的历时统计、结构演变的路径追踪以及地域差异的系统比较。对方言研究而言，若口语材料能够与音频对应，研究者在讨论音变、语调、弱化与连读等现象时就能回到原材料核验，从而减少仅凭转写而产生的误判。对少数民族语言研究而言，知识库如果能够稳定地保存口述材料、对照译注与语境说明，就能为词汇整理、语法描写、语言接触研究提供更可靠的共同材料基础，也能使不同研究者更容易在同一证据上开展对话。

知识库对跨语言比较与类型研究同样具有促进作用。中国境内语言类型多样，语序、形态、音系系统差异显著。许多理论问题若只在汉语内部讨论，往往难以看清其一般性与特殊性。知识库在总体设计上强调多语言并置，并通过较一致的整理方式增强材料的可比性，这为类型研究提供了更可操作的条件。研究者不仅可以比较不同语言对同一概念的表达方式，也可以在更大范围内比较结构选择与语义编码方式的差异与共性。更重要的是，知识库将跨语言比较建立在可追溯的材料之上，使类型概括不至于变成抽象的标签拼接，而能落实到具体用例与语境中。对于强调证据与可核验的人文学术而言，这一点意味着类型研究可以获得更坚实的经验基础，也更容易产生对理论有解释力的比较发现。

除了为研究提供材料与检验条件，知识库还可能改变学术成果的呈现方式与积累方式。传统学术成果以论文、辞书、语法书等形式出现，其优点是论述完整，但缺点是更新较慢、可计算支持能力有限，且材料与结论的连接有时不够直观。知识库的条目化整理与回溯机制，使词条、用法说明、结构归纳可以在长期维护中不断修订完善，也使不同研究成果更容易通过共享材料与共同规范而彼此衔接。研究者在知识库中增加一条可靠例证、修订一处译注、补充一条变体说明，实际上也是在公共基础设施上进行学术积累。这样的积累方式能为其提供更坚实的材料地基，并让学术共同体共享更透明的证据链条。

就应用前景而言，中国语言知识库具有明显的公共价值，尤其在方言与民族语言的记录保护方面。许多濒危语言与方言的核心问题不在于缺少研究者关注，而在于缺少可长期保存、可持续维护的高质量材料。知识库以证据层保存音视频与语境信息，以标注层提供转写与译注，并在知识层形成词汇与用法条目，这为语言记录提供了一个更完整、更可持续的载体。对社区而言，知识库不仅是学者的研究工具，也可以成为文化传承与语言教育的资源来源。知识库的建设应当把“回馈”纳入规划：材料来自社区，成果也应当以适当形式回到社区，促进语言文化的可持续传承，而不是把大众仅当作资源提供者。

在语言技术与智能应用方面，知识库同样具有现实意义。当前大型语言模型与多种自然语言处理系统，往往在英语等资源丰富语言上表现较好，而在资源不足语言上效果有限，其原因之一是高质量训练材料与评测材料缺乏。中国语言知识库如果能够在规范整理与质量控制下积累多语言材料，并形成稳定的转写、译注与词表，就能为机器翻译、语音识别、文本分析等任务提供更可靠的数据基础。尤其在少数民族语言场景中，多语种预训练模型虽然提供了起步能力，但要获得可用水平，仍需要高质量的校订样本与标准化评测集合。知识库可以在建设过程中逐步形成这类可用于训练与评测的资源，从而推动资源不足语言的技术发展不再停留在概念层面。与此同时，知识库强调可追溯，也为技术系统的可解释性提供了支撑：当系统输出某种翻译或分析结果时，可以回到知识库中的例证与条目查证依据，从而降低黑箱式应用的风险。

知识库在教育与文化传播领域也有广阔空间。对汉语教学而言，知识库可提供大量可检索的例句、搭配、语境用法与历时用例，使教学不再局限于少量教材例句。对汉语方言与少数民族语言教育而言，双语对照材料、口述故事、术语整理与场景解释都可以成为课程资源。对公众文化传播而言，知识库可支持方言地图、词源查询、俗语解释等面向大众的应用，前提是内容整理必须可靠且可追溯。更重要的是，知识库强调多模态材料的保存与对应，这使语言文化传播不止停留在文字层面，而能够通过音视频与场景材料更真实地呈现语言实践，增强公众理解与参与的可能。

在看到价值与前景的同时，知识库建设必须正视治理与伦理问题。语言资料不同于一般文本数据，它往往带有明确的主体关系与文化归属。口述材料可能涉及个人隐私与敏感经历，社区语言材料可能涉及集体知识与传统禁忌，某些仪式语言与文化内容甚至并不适合公开传播。若缺少审慎治理，知识库不仅可能引发侵权争议，更可能对个体与社群造成伤害。因此，治理伦理不应被视为附带章节，而应贯穿知识库建设的全过程，并在制度设计上形成明确的边界与责任。

首先是授权与版权问题。对录音与影像材料，应在采集阶段取得清晰的知情同意，说明资料用途、保存方式与可能的公开范围，并允许说话人或社区对公开程度作出选择。对传统故事、歌谣与仪式文本等集体文化内容，应尊重社区的决策权，在必要时争取文化管理机构或社区代表的许可，并对不宜公开的部分采取受控访问或仅供内部研究的方式。对书面文本与网络材料，应严格区分公共领域、开放许可与受版权保护材料；对无法公开的材料，可考虑仅提供索引与统计信息，或在合理使用范围内提供少量例证。预先说明并明确材料使用边界，不仅能减少后续纠纷，也能让知识库在开放共享与合法合规之间取得更稳妥的平衡。

其次是隐私与敏感内容处理。口述材料常包含个人身份信息、家庭经历、医疗宗教等敏感内容；汉语方言与少数民族语料也可能涉及群体形象、地方冲突或内部禁忌知识。知识库应当建立基本的匿名化与脱敏策略：个人可识别信息与语料本身尽量分离保存，公开发布时对必要信息作模糊化处理。对涉及敏感主题的片段，可设置访问权限，限制为授权研究者使用。对社区明确认为不宜公开的材料，应尊重其意见，采取不公开或仅在社区内部使用的策略。更重要的是，应建立撤回机制：当说话人或社区提出撤回请求时，应有明确流程处理，并在版本管理中留下记录，以体现对数据主体的尊重。

再次是大众参与与回馈机制。知识库若要在少数民族语言与濒危语言领域长期运行，不能停留在采集、入库、发表的单向模式，而应把大众视为共同建设者。实践上，这意味着在采集与整理过程中吸纳母语者参与转写、译注与校订。在成果发布时提供面向大众的可用版本，例如双语故事集、学习词表、教学资源包等。在技术应用层面，避免将大众语言数据用于与其利益无关甚至可能损害其利益的用途。大众参与不仅是伦理要求，也直接影响数据质量：母语者对语境与细微意义的把握，是外来研究者难以替代的。把大众纳入知识生产过程，既能提高资料可靠性，也能增强项目的正当性与可持续性。

最后是开放共享与风险控制之间的平衡。知识库作为公共基础设施，理应尽可能支持学术共享与社会使用，但开放并不意味着无差别公开。更稳妥的方式是分级开放：对版权清晰、授权允许、无明显风险的材料开放；对存在版权或敏感风险的材料实行受控访问；对具有明显文化禁忌或可能造成伤害的材料不公开或仅保留汇总性信息。与此同时，知识库应提供清晰的使用条款，说明允许的使用范围、引用方式与禁止行为，并建立违规处理机制。对与技术企业合作的情形，更应明确数据用途、训练范围与收益回馈，避免出现“数据被抽取、社群无收益”的不公平局面。只有把这些规则写清楚并能执行，知识库的开放才不会变成对弱势语言社群的二次剥夺。

总体而言，中国语言知识库不仅为语言研究提供了可检验的证据与长期积累平台，也为方言及民族语言的保护传承与数字可用性拓展了应用前景。在坚守授权合规、隐私保护与分级开放等伦理边界的前提下，知识库方能成为真正可信、可用、可持续的学术基础设施，进而为夯实人文学术根基、促进语言文化传承与技术发展公平性提供坚实支撑。

（注：文章公众号推文中的参考文献及注释省略，详见纸刊）

THE END

文章刊于《云南师范大学学报》

（哲学社会科学版）

2026年第2期

一审 | 和智利二审 | 黄龙光三审 | 熊理然

一校 | 王浩禹二校 | 和智利三校 | 朱碧波

云南师范大学学报（哲学社会科学版）不收取任何形式的审稿费、版面费。

云南师范大学学报（哲学社会科学版）唯一投稿途径为云南师范大学官网学报编辑部：

https://qkgj.ynnu.edu.cn/jwk_xb/。

往期推荐

云南师范大学学报（哲学社会科学版）2026年第2期目次及摘要

袁伟姜赫陈雪彤∣中国百年大规模国家通用语言文字调查：实施过程、成果应用与当代启示

沈骑孙雨｜中国语言国情知识体系建设的进展与前瞻

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

5.18截止，我们还在招：北语26国际中文教育博士生招生！

2026年5月8日 09:01

徐惠 2026-05-08 09:01 江苏

北语2026国际中文教育博士招生，5.7-5.18报名，硕博连读与申请考核选拔。

转载自“汉语堂”

1
硕博连读
面向已按学科培养方案要求修完硕士学位课程、各科成绩优秀，经硕士生导师同意可申请硕博连读的本校非定向全日制二年级在读硕士研究生（硕士专业学制应为三年，学制为两年的硕士生可直接选择“申请-考核”制报考攻读博士学位），择优遴选博士研究生的招生方式。
2
申请-考核
面向符合报考条件的人员进行考核选拔博士研究生的招生方式。
本次国际中文教育专业博士招生计划约51人，其中含骨干计划5人，最终人数以实际录取为准。
招生导师见招生专业目录（附件）。为深化研究生培养机制改革，优化人才选拔方式，我校在原有“按导师报考”基础上，新增“不区分导师报考、学科统一考核”的招生模式，考生在报名阶段如有明确报考导师意向，可选择相应导师填报志愿；如无明确报考导师意向，则可仅填报研究专业及方向，在系统中选择“不区分导师”。
（一）中华人民共和国公民。
（二）拥护中国共产党的领导，品德良好，遵纪守法。
（三）身体和心理健康状况符合国家和学校规定的体检要求。
（四）有至少两名所报考学科专业领域内的教授（或相当专业技术职称的专家）的书面推荐意见。
（五）符合所报考学科提出的其他条件和要求。
（六）通过硕博连读方式申请的考生须符合下列条件：
1.符合申请条件中（一）至（五）的要求；
2.具有我校硕士研究生正式学籍的非定向全日制二年级在读硕士研究生，硕士专业学制应为3年；
3.已完成培养方案中规定的课程学习和考核，且成绩优秀，无不及格记录，相关标准见《北京语言大学研究生课程考核及成绩管理办法》；
4.对科学研究有浓厚兴趣，具有较强创新精神和科研能力；
导师及培养单位经考察并研判，确认其具有培养前途后，认真填写《北京语言大学硕博连读研究生申请表》相应意见栏。
5.所申请专业应与硕士研究生阶段学习专业相同或相近，原则上不能跨一级学科。如所在硕士专业不具有博士学位授予权，可申请相关的一级学科。
（七）通过申请-考核方式申请的考生须符合下列条件：
1.符合申请条件中（一）至（五）的要求；
2.已获硕士学位的人员或应届硕士毕业生（须在录取当年入学前获得硕士研究生毕业证书和学位证书）；
凡在中国大陆地区以外取得学历或学位者，最晚须于报到日前取得硕士研究生毕业证书和教育部留学服务中心出具的《国（境）外学历学位认证书》，否则录取资格无效。
3.获得学士学位后，工作六年以上（含六年，从获得学士学位到录取为博士生当年的9月1日），按硕士同等学力身份报考，并须满足以下要求：a）已修完至少10门所报考学科的硕士学位课程且成绩合格（须提供授课单位校级成绩管理部门盖章的成绩单）；b）本年度报名最后日期之前在CSSCI来源期刊上已发表过三篇及以上与报考专业相近或相关的学术论文（署名前2位）；c）以同等学力资格申请还须加试两门专业课及一门政治理论课。
1
报考须知
1.报考前请认真阅读我校招生简章中的所有内容，凡有下列情况之一者，造成报名无效，我校概不承担责任：①不符合我校报考条件；②所提供的信息、材料不完整或不真实。
2.我校博士研究生均须全日制学习，不招收非全日制博士生。
3.报考类别包括以下两种类型，请正确选择：
（1）非定向：考生在被录取后没有保持人事关系的正式工作单位，读博期间个人人事档案及户口转入我校（户口自愿选择是否迁入），毕业后在国家政策指导下就业。
（2）定向：考生在被录取后仍与本人所在定向单位保持人事工作关系，读博期间个人人事档案及户口不转入我校，毕业后回定向单位工作。
考生录取时的“录取类别”即为报考时“报考类别”，请考生在报考时谨慎选择，拟录取为“定向就业”的考生须与定向单位、北京语言大学签订三方协议。
注：报考少数民族骨干计划的考生报考类别均为定向。通过硕博连读方式报考的考生报考类别均为非定向。
4.我校不允许研究生同时攻读两个及以上不同层次或相同层次的学位。
2
网上报名及缴费
符合条件的考生登陆网上报名系统填报信息，并交纳报名费200元。网上报名系统将于2026年5月7日10点开通，2026年5月18日10点关闭，逾期未完成报名者，学校不安排补报。
3
提交申请材料
考生提交以下申请材料（相应模板下载地址见网报公告）：
1.材料清单；
2.申请人有效居民身份证，正反面扫描在同一页；
3.拟攻读博士学位的研究计划书（一般不少于5000字）；
4.专家推荐信（两封），推荐人应为报考学科专业领域内的教授（或相当专业技术职称的专家），推荐信由专家本人填写、手写签名（不得使用电子签名）并密封（密封时，在密封袋封口骑缝处再次签名），填好后的推荐信不与考生见面，被推荐考生本人不得查看，由推荐专家填写后寄至我校研招办，也可密封后由考生转寄；
5.外语水平能力证书，报考外语类专业的考生除二外水平能力证明材料外，还应提供本专业语种相关水平能力证明材料；
6.学术经历及成果材料，包括一份个人教育、学术经历及成果自述，理论和学术成果的证明材料或实践和创作成果的证明材料等；
同等学力考生须提交3篇及以上本年度报名最后日期之前在CSSCI 来源期刊上发表过的与报考专业相近或相关的学术论文（署名前2位）及学术期刊封面、目录。
7.最高学历、学位证书和相关认证报告。“申请-考核”考生提交硕士毕业证书、硕士学位证书，应届硕士和“硕博连读”考生提供《教育部学籍在线验证报告》；在境外获得学历（学位）的考生，须提供教育部留学服务中心出具的认证报告（应届生须提供就读学校出具的学籍证明并注明预毕业日期或获硕士学位日期）；
同等学力考生须另提供本科毕业证、学位证。
8.硕士课程成绩单（往届生可在考生人事档案保管单位或硕士就读学校的档案管理部门复印并盖章）；
同等学力考生提交到高校进修10门以上硕士研究生课程的成绩单（研究生培养部门盖章有效）；
除材料1-8外，“硕博连读”考生还须提交：
9.《北京语言大学硕博连读研究生申请表》。
除材料1-8外，“申请-考核”考生还须提交：
10.硕士学位论文（应届硕士毕业生可提供开题报告、研究工作进展情况、论文初稿等，往届生提供全文）；
11.少数民族高层次骨干人才计划考生，须通过资格申请平台审核；
12.报考类别为“定向就业”的考生，须提供定向单位同意报考证明。
除材料4外，以上所有材料均应扫描为PDF文件（内容应清晰可见，如缺少相应材料，请用A4纸替代，并说明、签字），按博士报名系统提示上传到博士报名系统中。除4、9、12外，其他材料不需要邮寄纸质版，原件均需备查。
以上提供材料必须真实可靠，如有弄虚作假，一经发现，不予录取，相关后果由考生本人承担。
4
材料审核
按专业成立5名及以上博导或教授组成的学科组，负责对该专业所有考生进行材料审核和评价，按百分制独立打分，取平均分为材料审核最终成绩，成绩高于60分的进入综合考核。
材料审核成绩构成：
攻读博士学位期间研究计划书、专家推荐意见：40%；考生学术经历和成果（根据参与科研、发表论文、出版专著、访学进修、参加学术会议、获奖、教育经历等情况综合评价）：40%；硕士学位论文、硕士课程成绩：20%。
5
综合考核
综合考核包括综合笔试和综合面试两个环节。
综合笔试包括外国语笔试和学术写作笔试，同等学力人员须加试两门硕士阶段专业课和政治理论，每科总分100分，60分及以上为合格，低于60分，不予录取。
外国语笔试考试科目限定在英语、基础外语（中文试题，考生按照试题要求，使用相应语种答题，可选择语种为：俄语、日语、法语、阿拉伯语、西班牙语。），注：考试语种为英语的请选择1011英语科目。
所有申请人均须参加北京语言大学组织的博士研究生招生入学外语考试及学术写作考试。
综合面试由招生导师组织5名及以上博导或教授组成综合考核组，对考生进行面试考核，重点考查考生在本学科攻读博士学位的学术素养、学术志趣、研究能力、创新潜力等，按百分制独立打分、取平均分得出考生最终面试成绩，并给出录取意见。
6
录取原则
1.所有考生（含少数民族骨干计划考生）根据各导师招生计划人数或报考专业方向招生计划人数按总成绩从高到低录取。
**总成绩=综合笔试成绩40%+综合面试成绩60%
综合笔试成绩=外国语考试成绩50%+学术写作笔试成绩50%
同等学力加试成绩仅做合格要求，不计入总成绩。笔试考核各科目、面试考核任意一项成绩低于60分的，不予录取；录取意见为不录取的，不予录取。
骨干考生报考须符合教育部文件中关于招收少数民族高层次骨干人才研究生计划生源范围及招生对象的要求。
请注意，报考同一导师的所有考生（含专项计划）考核录取办法相同，均占用导师招生计划，在导师招生计划内一起排名，按总成绩从高到低择优录取；报考同一专业/方向、不区分导师的所有考生（含专项计划）在专业/方向招生计划内统一排序，按综合考核总成绩从高到低确定拟录取顺序，在成绩排序基础上，由学科专家组结合各导师招生名额、研究方向及考生志愿（或面试中体现的研究方向意向），统筹进行导师匹配；报考不同导师（含不区分导师）的专项计划考生，如拟录取人数超出专项计划下达数，同一录取批次内按外国语笔试成绩排名，排名超出下达专项计划数的考生将不予录取。
2.有下列情况之一者，学校将取消录取资格：
（1）申请人提供的材料与事实不符，存在弄虚作假情况。
（2）思想政治素质和品德考核未通过。
（3）不符合规定的体检标准或因身体缺陷、疾病而不能继续学习。
（4）发生影响接收录取的其他情形的。
3.为保障招生计划落实以及维护招生的严肃性，拟录取后如放弃拟录取资格请在公示期内提出。公示期结束后提出放弃拟录取资格或不予受理。
（一）网报时间：2026年5月7日10点至2026年5月18日10点，逾期未完成报名者，学校不安排补报。
（二）材料审核结果公示时间：见后续通知。
（三）笔试时间：时间和地点见后续通知。
（四）综合面试时间：时间和地点另行通知。
●（一）我校研究生招生信息均在网上公开发布。报名、材料审核、综合考核、拟录取等信息均可在我校研究生院网站（http://yjsy.blcu.edu.cn/）或“北语研招”微信公众号查询，请及时关注。
●（二）我校专业学位博士研究生基本学制为3年，硕博连读转为博士学籍后学制按专业学位博士基本学制执行。学校优先选拔学业优秀的国际中文教育专业学位博士研究生赴海外分校、海外中国研究院、海外孔子学院进行教学研究实践。
●（三）定向研究生（非在职的骨干计划及公费师范研究生除外）不安排住宿，住宿政策见学校相关住宿规定，如有变化以学校最新规定为准，具体请咨询我校住宿管理部门。
●（四）我校国际中文教育专业学位博士研究生学费48000元/生/学年，相关学费标准详见北京语言大学财务处官网。
●（五）如因考生个人原因取消报名、不能参加考核或未被录取，已交付的报名费、报名材料一律不予退还。凡不符合报考条件的考生将不予录取，后果由考生本人承担。
●（六）我校不举办任何形式的考前辅导班。
●（七）我校研究生招生办公室联系方式：
北京市海淀区学院路15号
北京语言大学综合楼1029室研究生招生办公室
邮编：100083
联系电话：010－82303470
公众号：北语研招（blcuyanzhao）
国际中文教育专业学位博士研究生招生专业目录.pdf**

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

征稿|第九届计量语言学学术研讨会

2026年5月7日 09:01

qler 2026-05-07 09:01 江苏

以下文章来源于：计量语言学

计量语言学

语言研究科学化、中国语言学国际化

第九届计量语言学研讨会8月呼和浩特举办，聚焦人机智能语言研究征稿。

转载自“计量语言学”

“人机智能共同体时代的语言研究”

暨第九届计量语言学学术研讨会

征稿通知

以大语言模型（LLM）和生成式人工智能（GenAI）为代表的智能技术，使人类与机器的关系从使用工具的主客体迈向深度协作与共同创造的智能协同。人机智能协同正在重塑科学研究的范式与边界。这一变革，为语言研究带来前所未有的可能性，也对传统研究提出挑战。

为深入探讨人机智能协同背景下的语言研究前沿问题，内蒙古大学蒙古学学院与北京语言大学计量语言学研究中心联合举办“人机智能共同体时代的语言研究”暨第九届计量语言学学术研讨会。

热忱欢迎相关领域的专家学者、科研人员、高校师生赐稿参会！

现将会议有关事项通知如下。

一、会议议题

1. 人机智能协同语言研究的机遇与挑战

2. LLM和GenAI在语言研究中的应用

3. 数据驱动的语言研究

4. 少数民族语言文学计量研究

5. 数字人文研究

6. 计量语言学其他研究

二、会议安排

时间：2026年8月5日（星期三）报到，6-7日正式会议，8日离会。

地点：内蒙古自治区呼和浩特市

形式：大会报告、分组报告、海报展示

费用：注册费800元/人，学生凭有效证件减半。往返交通费和住宿费自理（会务组可协助预订酒店）。

三、会议投稿

会议面向国内学者和在读学生公开征稿。请有意参会者于2026年6月5日（星期五）前，扫描下方二维码，提交论文摘要（500字以内）和相关信息。

会议将组织专家对投稿进行评审，于2026年6月下旬发布录用通知。

会议联系人：谢老师

邮件地址：yonghui_xie2026@126.com

敬请学界同仁惠赐大作！

（请扫码提交稿件）

“人机智能共同体时代的语言研究”

暨第九届计量语言学学术研讨会组委会

2026年5月6日

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

缅怀｜沉痛悼念刁晏斌先生！

2026年5月6日 08:50

沉痛悼念的 2026-05-06 08:50 江西

著名语言学家刁晏斌5月4日逝世，推文介绍其生平、学术成就与代表著作。

转载自”语言学心得“

缅怀

刁晏斌

著名语言学家刁晏斌先生，于2026年5月4日中午逝世。先生一路走好！沉痛悼念！

刁晏斌

刁晏斌（1959年5月－2026年5月），男，山东烟台人，语言学博士，现任北京师范大学文学院教授、博士生导师，北京师范大学全球华语对比研究中心主任，北京师范大学文学院985工程特聘教授。他是国家社科基金重大项目首席专家，中英双语国际学术刊物《全球华语》（Global Chinese）中文主编。

刁晏斌先生长期致力于现代汉语史、全球华语对比及海峡两岸四地语言差异与融合的研究。他首次提出并系统构建了“现代汉语史”学科体系，突破了传统“普通话—方言”的研究框架，构建了包含普通话、台港澳国语、海外华语的“三足鼎立”语言生态模型，并提出了“趋同—存异”的双趋势理论。他出版学术专著20余部，发表学术论文近300篇，其代表作《现代汉语史》等在学界产生了广泛影响。

好文荐读｜刁晏斌：全球华语融合的初步调查及相关问题的思考

【人物经历】

求学之路

1978年，刁晏斌考入辽宁师范学院（现辽宁师范大学）中文系，1982年获得文学学士学位。1983年，他考入吉林大学中文系攻读硕士学位，师从许绍早教授，研究方向为近代汉语句法，1986年毕业并获得硕士学位。2001年，刁晏斌考入南开大学文学院攻读博士学位，师从马庆株教授，研究方向为现代汉语语法，2004年毕业并获得博士学位。2004年，他进入山东大学文学与新闻传播学院博士后流动站从事研究工作，于2006年出站。

执教生涯

1982年大学毕业后，刁晏斌曾在大连市新金县（现普兰店市）第二高级中学任教一年。1986年硕士毕业后，他回到辽宁师范大学中文系任教，历任讲师、副教授，1993年晋升为副教授，1997年破格晋升为教授。2001年，刁晏斌调入北京师范大学文学院工作，曾任汉语言文字学研究所副所长，现任现代汉语研究所所长。2008年，他被增列为博士生导师。此外，他还受聘为北京师范大学985工程特聘教授，并担任吉林大学文学院兼职教授。

【主要成就】

现代汉语史研究

刁晏斌在学术界首次提出“现代汉语史”的概念，主张将汉语史的研究下限延伸至当代，填补了传统汉语史研究中关于现代汉语历时发展的空白。他提出现代汉语发展的“三期”观点，即“五四”至1949年的“放”的时期、1949年至1978年的“统”的时期，以及1978年以后的“放”的时期。在这一框架下，他全面考察了现代汉语语音、词汇、语法、修辞等要素的百年演变历程，构建了较为完整的理论体系。

全球华语与两岸对比研究

刁晏斌将研究视野扩展至全球华人社区，探讨普通话、台港澳国语与海外华语之间的差异与融合机制，倡导“大汉语”的研究视角。他突破了传统的“普通话—方言”二分法，提出了包含普通话、台港澳国语、海外华语的“三足鼎立”语言生态模型，认为这三者构成了现代汉语的完整版图。针对全球华语的发展趋势，他提出了“趋同—存异”的双趋势理论，认为随着社会交流的增加，各变体之间存在词汇、语法等方面的趋同现象，但同时各变体也会保持自身的特点，形成“大同小异”的格局。在具体的研究方法上，他强调“微观对比”和“细颗粒度”研究，主张强化“词”的意识，对具体语言现象进行穷尽性调查和多视角分析。

【代表作品】

刁晏斌已出版学术专著20余部，主要代表作包括《现代汉语史》（商务印书馆，2006年）、《全球华语的理论建构与实证研究》（华语教学出版社，2018年）、《海峡两岸及港澳地区现代汉语差异与融合研究》（商务印书馆，2015年）、《当代汉语词汇研究》（商务印书馆，2013年）、《当代汉语语法研究》（中国社会科学出版社，2016年）、《初期现代汉语语法研究》（语文出版社，1999年）、《新时期大陆汉语的发展与变革》（吉林教育出版社，1995年）、《现代汉语史：思考与探索》（北京师范大学出版社，2022年）、《“文革”时期语言研究》（韩国岭南大学出版社，2011年）以及与聂大昕合著的《清末民初语法研究》（东北师范大学出版社，2022年）。

他在《中国语文》、《语言研究》、《语文研究》等学术期刊发表论文近300篇，部分代表性论文包括《百年现代汉语发展的回顾与前瞻》（《北京师范大学学报》社会科学版，2023年第2期）、《台湾的“国语”词汇与大陆普通话趋同现象调查》（《中国语文》，2015年第3期）、《试论华语词汇的微观对比研究──以“做/作+动”结构为例》（《中国语文通讯》，2023年第102卷第2期）、《海峡两岸趋向动词的用法差异及相关问题》（《辽宁师范大学学报》社会科学版，2016年第2期）、《社区词理论：已有进展及进一步研究的思考》（《语文研究》，2022年第2期）以及《华语的欧化与欧化的华语》（《长江学术》，2022年第2期）。

【代表作品】

刁晏斌担任北京师范大学全球华语对比研究中心主任，同时也是中英双语国际学术刊物《全球华语》（Global Chinese）的中文主编。在学术团体中，他担任中国语文现代化学会常务理事兼海峡两岸语言文字研究专业委员会理事长、全国高等院校现代汉语教学研究会副会长、中国语言学会理事以及中国修辞学会理事等职。此外，他还曾担任辽宁省修辞学会会长和辽宁省语言学会副会长，并受聘为吉林大学兼职教授。

以上内容整理自微信、官网等

今日小编：心得君

审核：心得君

转载&合作请联系

"心得君"

微信：xindejun_yyxxd

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

报名开启 | 第四届语料库与数字人文暑期学院（2号通知）

2026年5月5日 00:01

戴俊阳徐惠 2026-05-05 00:01 江苏

暑校报名5月5日开始，5月15日截止，线上线下免费学习！

第四届语料库与

数字人文暑期学院

— 2号通知 —

CDHSUMMER2026

随大数据与人工智能技术的发展，语言、文学、历史等人文研究都越来越多地引入了计算技术。人文学科与计算技术的交叉研究，关键在于基于语料库的人文大数据构建、计量和大语言模型的应用。

为推动计算语言学与数字人文的学科建设与人才培养，南京师范大学联合北师港浸大、澳门大学、香港科技大学、南京农业大学五校，于2026年7月25日-8月4日（共11天），通过线上线下结合的形式举办语料库与数字人文暑期学院，包括讲习班实训和讲座论坛两大部分。

报名链接

扫描上方二维码即可进行报名

各班概况

A班：数据库编程讲习班

以《全唐诗》为例，教习人文语料库构建技术与交互式检索网站开发方法，实现文史数据的结构化存储与动态展示。
主讲：李斌（南京师范大学）
设备要求：需准备16G内存以上的Windows 10/11笔记本电脑
详细课程大纲：

第一讲：课程简介与软件安装

第二讲：数据表的构建

第三讲：数据库的查询

第四讲：PHP程序设计

第五讲：字符编码

第六讲：字符串处理

第七讲：交互式网站搭建

第八讲：本地小模型优化

B班：语言统计方法讲习班

聚焦语料库计量分析，系统讲授基于SPSS的统计基础、参数检验、非参数检验、聚类分析、相关分析、卡方检验、多元线性回归及逻辑回归等核心方法，帮助学员掌握语言研究中的定量分析技能与统计报告生成能力。
主讲：沈威（华中师范大学）
设备要求：需准备安装有SPSS 27.0及以上版本的Windows/Mac笔记本电脑
详细课程大纲：

第一讲：统计基础与SPSS安装实操

第二讲：常见的参数检验

第三讲：常见的非参数检验

第四讲：聚类分析

第五讲：相关分析

第六讲：卡方检验

第七讲：多元线性回归

第八讲：逻辑回归

C班：大模型编程讲习班

掌握大语言模型基础原理与人文场景落地技术，能够独立开发面向文史研究的大模型应用。
主讲：王东波、刘浏（南京农业大学）
设备要求：需准备性能较好的Windows/Mac笔记本电脑（推荐16G以上内存）
详细课程大纲：

第一讲大语言模型基础

第二讲基础模型和推理模型

第三讲提示工程

第四讲继续预训练和监督微调

第五讲强化学习

第六讲大模型的部属

第七讲检索增强生成

第八讲 AI Agents

招生要求：具备基础Python编程能力，对大语言模型有基础认知。

专家讲座与配套活动

系列讲座

邀请20位领域顶尖学者，开设20场讲座，覆盖理论前沿、技术方法与应用实践，每日上午线上线下同步直播。

特邀讲座和论坛嘉宾

新疆大学冯志伟教授

澳门大学袁毓林教授

香港理工大学黄居仁教授

中国社科院民族所龙从军研究员

中国社科院语言所张永伟研究员

北京大学苏祺研究员

北京大学朱本军研究员

华中科技大学唐旭日教授

同济大学王昊奋教授

南京大学黄书剑教授

南京农业大学王东波教授

南京师范大学李斌教授

北京师范大学胡韧奋副教授

中国人民大学卢达威副教授

北京语言大学饶高琦副研究员

华中师范大学沈威副教授

中国传媒大学王璐璐副教授

江南大学王萌副教授

（持续邀约中）

主题圆桌论坛

设置2场专题Panel，围绕「LLM时代人文学科的理论重构」「语言学与数字人文的未来」展开深度对话，开放学员提问与交流环节。

文化考察与学术研讨

每日下午安排南京及周边特色人文考察与分组学术研讨，线下学员可全程参与。

成果展示与颁奖

闭幕式设置优秀成果汇报环节，邀请专家现场点评，为优秀学员颁发证书。

招生与报名规则

招生规模

本次暑期学院计划录取线下学员120人，线上学员80-100人，总计不超过240人。其中主办五校（南师大、北师港浸大、澳大、香港科技大学、南农大）学员录取不超过 60 人，其他单位学员录取不超过 180 人。

面向对象

全国高校及科研院所数字人文、计算语言学、语料库语言学、中国语言文学、历史学、文献学、考古学、新闻传播学等相关学科的本科生、研究生，以及青年教师、科研人员。

分班报名要求

学员仅可选择1个平行讲习班进行报名，不可兼报，各班报名要求如下：

数据库编程讲习班：面向零基础或编程初学者，具备大学英语四级及以上水平即可报名，已具备计算机相关专业背景者请勿申请。
语言统计方法讲习班：具备基础的文本分析认知，对语料库计量分析有学习需求，已具备统计学/计算机专业背景者请勿申请。
Python大模型编程讲习班：具备基础的Python编程能力，对大语言模型有基础认知，尚未掌握人文场景大模型开发与应用技术，已具备计算机相关专业背景者请勿申请。

报名方式

报名时间：官方报名通道将于2026年5月5日正式开启，2026年5月15日截止报名，报名二维码及链接将在官方公众号同步发布。
报名材料：申请人需填写报名表单，并上传个人简历、研究基础与学习目标说明，主办方将根据报名材料进行择优录取。
录取通知：最终录取结果将于2026年6月1日前通过邮件及官方公众号推送，录取学员需签署上课承诺书，承诺全程参与课程学习、按时提交作业，报名成功后无特殊原因不得中途退课、不得更换报名班级。

结课与考核方式

本次暑期学院以独立完成的人文研究成果为核心考核目标，具体要求如下：

数据库编程讲习班：独立构建专属人文数据库与交互式检索网站。
语言统计方法讲习班：完成基于语料库的人文研究计量分析报告。
Python大模型编程讲习班：完成面向人文研究场景的大模型应用开发。

学员成果将在闭幕式进行集中汇报，邀请领域专家进行现场点评与指导；完成全部课程学习、通过成果考核的学员，将颁发暑期学院结业证书，优秀成果将授予优秀学员证书。

组织架构

（以下各项排名不分先后）

主办单位

南京师范大学文学院

联合主办单位

澳门大学人文学院

香港科技大学人文学部

北师香港浸会大学人文社科学院

南京农业大学信息管理学院

特约支持单位

中国社科院民族所民族语言文化行为实验室

协办组织/单位

中国民族语言学会语言资源与计算人文专委会

中国古籍保护协会古籍智能开发与利用专委会

中国人工智能学会语言智能专委会

江苏省人工智能学会自然语言处理专委会

江苏省修辞学会

数字人文专业发展联盟

浙江大学文学院

出版与媒体支持

科学出版社

高等教育出版社

中华书局古联公司

外语教学与研究出版社

南京大学出版社

南京师范大学出版社

汉语堂公众号

DH数字人文公众号

语言服务公众号

比特人文公众号

扫码关注公众号，

获取报名通道、课程更新、嘉宾资讯等更多内容

会议通知 | “国际语法研究学会第三届学术研讨会”征稿启事

2026年5月4日 00:00

徐惠 2026-05-04 00:00 江西

郑大2026年11月办国际语法研讨会，征摘要8月14日截止，9月7日通知结果。

转载自“郑大数字人文”

为促进语言学各流派、各领域之间的对话和交流，推动语言学创新发展，郑州大学外国语与国际关系学院和文学院将于2026年11月13至15日在郑州大学主校区联合举办“国际语法研究学会第三届学术研讨会”。

现向本领域同行征集论文摘要。论文应契合跨学科、跨学派、跨语种、跨国界、跨古今（“五跨”）学术理念，至少在一个方面体现“跨”的特征。有意参会者请于2026年8月14日前将中文或英文论文摘要（含关键参考文献）发送至会议邮箱：iags_2026@163.com。摘要（含参考文献）不超过A4纸一页，中文请使用宋体小四号字，英文请使用Times New Roman 12号字。论文录用情况将于2026年9月7日前通过邮件通知。会议倡导“平等、和谐、自在、简约、高效”的新风尚。所有录用论文均安排口头报告。

国际语法研究学术研讨会由国际语法研究学会（International Association of Grammar Studies，IAGS）发起，该学会于2024年3月17日在澳门成立，并于2024年12月1至4日在澳门大学召开第一届研讨会。学会的宗旨是在语法研究领域推动跨学科、跨学派、跨语种、跨国界、跨古今的研究理念，学会成立目的是为了突破当今语法研究领域基于语种、学派等条块分割现状，打通古今与中外，对接事实与理论，引导跨界交流，激活大脑风暴，推动理论创新。

重要信息

会议时间：2026年11月13–15日（13日报到，15日离会）

会议地点：郑州大学外国语与国际关系学院、文学院

工作语言：中文或英文

摘要提交截止时间：2026年8月14日

录用通知时间：2026年9月7日前

会议邮箱：iags_2026@163.com

郑州大学外国语与国际关系学院

郑州大学文学院

2026年4月23日

敬请关注

推文：陈茜

初稿：张淑华、庞培、刘磊、韩艳方

一审一校：金慧媛

二审二校：王志伟

三审三校：高晓玲

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

刊讯|SSCI《自然语言处理》2025年第1-6期

2026年5月4日 00:00

有常 2026-05-04 00:00 江西

分享一篇文章

语言学心得: 刊讯｜SSCI《自然语言处理》2025年第1-6期

（SSCI 一区，2024 IF：1.9，排名：64/306）2025 年第 1-6 期共发文 63 篇

Natural Language Processing
Volume 31, Issue 1-6, 2025
Natural Language Processing（原名： Natural Language Engineering，SSCI 一区，2024 IF：1.9，排名：64/306）2025 年第 1-6 期共发文 63 篇，其中研究性内容 58 篇，书评 2 篇，另有勘误 2 篇、业界前沿 1 篇。研究论文覆盖低资源语言、多语与跨语言迁移、语料库与数据集建设、词性标注与形态分析、依存句法分析、机器翻译与翻译评测、问答系统、对话系统与意图识别、仇恨言论检测、情感分析、讽刺检测、可读性评估、信息抽取、层级文本分类、事件识别与摘要、可信度评估、不确定性估计、中文拼写纠错、中文分词、text-to-SQL 安全、词向量语义增强、临床 NLP、主权 AI等主题。欢迎转发扩散！（2025年已更完）
相关推荐：
刊讯丨SSCI 期刊《第二语言研究》2025年第1-4期
刊讯丨SSCI 期刊《国际语料库语言学杂志》2025年第1-4期
目录
第1期
ARTICLES
■ Maximizing RAG efficiency: A comparative analysis of RAG methods（最大化 RAG 效率： RAG 方法的比较分析） by Tolga Şakar, Hakan Emekci, Pages 1-25
■ Learning and semiautomatic intention labeling for classification models: a COVID-19 dialog attendance study for chatbots（分类模型的学习与半自动意图标注：一项针对聊天机器人的 2019 冠状病毒疾病对话出勤研究） by Valmir Oliveira dos Santos Júnior, Marcos Antonio de Oliveira, Lívia Almada Cruz, Ticiana L. Coelho da Silva, Pages 26-55
■ Augmenting a Spanish clinical dataset for transformer-based linking of negations and their out-of-scope references（扩充一个西班牙临床数据集，用于基于变压器的否定链接及其超出范围的引用） by Antonio Jesús Tamayo-Herrera, Diego A. Burgos, Alexander Gelbukh, Pages 56-89
■ Statistical dataset evaluation: A case study on named entity recognition（统计数据集评估：以命名实体识别为例） by Chengwen Wang, Qingxiu Dong, Xiaochen Wang, Zhifang Sui, Pages 90-110
■ Building a Turkish UCCA dataset（构建了一个土耳其语命名实体识别数据集） by Necva Bölücü, Burcu Can, Pages 111-149
■ CoAT: Corpus of artificial texts（CoAT: 人工文本语料库） by Tatiana Shamardina, Marat Saidov, Alena Fenogenova, Aleksandr Tumanov, Pages 150-175
BOOK REVIEWS
■ Python for Linguists, Cambridge: Cambridge University Press, 2020.（语言学中的Python，剑桥：剑桥大学出版社，2020） by Pablo M. Tagarro, Igor Rodriguez, Maite Oronoz, Pages 176-180
第2期
ARTICLES
■ Preface: Special issue on Natural Language Processing applications for low-resource languages（前言：低资源语言自然语言处理应用专刊） by Partha Pakray, Alexander Gelbukh, Sivaji Bandyopadhyay, Pages 181-182
■ Natural language processing applications for low-resource languages（面向低资源语言的自然语言处理应用） by Partha Pakray, Alexander Gelbukh, Sivaji Bandyopadhyay, Pages 183-197
■ A bidirectional LSTM-based morphological analyzer for Gujarati（基于双向长短时记忆模型的古吉拉特语形态分析器） by Jatayu Baxi, Brijesh Bhatt, Pages 198-214
■ Part-of-speech tagger for Bodo language using deep learning approach（基于深度学习方法的博多语词性标注） by Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som, Pages 215-229
■ Probing a pretrained RoBERTa on Khasi language for POS tagging（探索一种用于卡西语词性标注的预训练 RoBERTa） by Aiom Minnette Mitri, Eusebius Lawai Lyngdoh, Sunita Warjri, Goutam Saha,Saralin A. Lyngdoh, Pages 230-249
■ Is Attention always needed? A case study on language identification from speech（注意力总是需要的吗？ —— 从语音中识别语言的个案研究） by Atanu Mandal, Santanu Pal, Indranil Dutta, Mahidas Bhattacharya,Sudip Kumar Naskar, Pages 250-276
■ Cross-lingual dependency parsing for a language with a unique script（跨语言依存句法分析是针对具有独特脚本的语言进行的） by He Zhou, Daniel Dakota, Sandra Kübler, Pages 277-305
■ Improving neural machine translation by integrating transliteration for low-resource English–Assamese language（针对低资源的英语 - 阿萨姆语语言，通过整合音译改进神经机器翻译） by Basab Nath, Sunita Sarkar, Somnath Mukhopadhyay, Arindam Roy, Pages 306-327
■ Statistical machine translation for Indic languages（面向印度语言的统计机器翻译） by Sudhansu Bala Das, Divyajyoti Panda, Tapas Kumar Mishra, Bidyut Kr. Patra, Pages 328-345
■ EHMMQA: English, Hindi, and Marathi multilingual question answering framework using deep learning（基于深度学习的英语、印地语和马拉地语多语言问答框架） by Pawan Lahoti, Namita Mittal, Girdhari Singh, Pages 346-374
■ Does learning from language family help? A case study on a low-resource question-answering task（语族学习有帮助吗？ —— 一个低资源问答任务的案例研究） by Hariom A. Pandya, Brijesh S. Bhatt, Pages 375-392
■ Hate speech detection in low-resourced Indian languages: An analysis of transformer-based monolingual and multilingual models with cross-lingual experiments（低资源印度语中的仇恨语音检测：基于转换器的单语和多语模型的跨语言实验分析） by Koyel Ghosh, Apurbalal Senapati, Pages 393-414
■ StereoHate: Toward identifying stereotypical bias and target group in hate speech detection（StereoHate: 识别仇恨语音检测中的刻板偏见和目标群体） by Krishanu Maity, Nilabja Ghosh, Raghav Jain, Sriparna Saha, Pushpak Bhattacharyya, Pages 415-434
■ Context-aware and expert data resources for Brazilian Portuguese hate speech detection（上下文感知和专家数据资源用于巴西葡萄牙语仇恨言论检测） by Francielle Vargas, Isabelle Carvalho, Thiago A. S. Pardo, Fabrício Benevenuto, Pages 435-456
■ Should we stay silent on violence? An ensemble approach to detect violent incidents in Spanish social media texts（我们应该对暴力保持沉默吗？西班牙语社交媒体文本中暴力事件检测的集成方法） by Deepawali Sharma, Vedika Gupta, Vivek Kumar Singh, David Pinto, Pages 457-476
■ Sentiment analysis of code-mixed Dravidian languages leveraging pretrained model and word-level language tag（基于预训练模型和词级语言标签的达罗毗荼语系混合语码情感分析） by Supriya Chanda, Anshika Mishra, Sukomal Pal, Pages 477-499
■ Towards a robust deep learning framework for Arabic sentiment analysis（面向阿拉伯语情感分析的鲁棒深度学习框架） by Azzam Radman, Rehab Duwairi, Pages 500-534
■ Predictive authoring for Brazilian Portuguese augmentative and alternative communication（巴西葡萄牙语扩大性和替代性沟通的预测性创作） by Jayr Pereira, Rodrigo Nogueira, Cleber Zanchettin, Robson Fidalgo, Pages 535-558
■ Intent detection and slot filling for Persian: Cross-lingual training for low-resource languages（波斯语的意图检测和插槽填充：低资源语言的跨语言培训） by Reza Zadkamali, Saeedeh Momtazi, Hossein Zeinali, Pages 559-574
■ A case study on decompounding in Indian language IR（印度语信息检索中的分解个案研究） by Siba Sankar Sahu, Sukomal Pal, Pages 575-605
■ Automatic generation of nominal phrases for Portuguese and Galician（葡萄牙语和加利西亚语名词短语的自动生成） by María José Domínguez Vázquez, Alberto Simões, Daniel Bardanca Outeiriño, María Caíña Hurtado, José Luis Iglesias Allones, Pages 606-630
■ Word sense disambiguation corpus for Kashmiri（克什米尔语词义消歧语料库） by Tawseef Ahmad Mir, Aadil Ahmad Lawaye, Pages 631-654
■ Resource building and classification of Mizo folk songs（克什米尔米佐民歌资源建设与分类） by Esther Ramdinmawii, Sanghamitra Nath, Pages 655-673
■ Ben-Sarc: A self-annotated corpus for sarcasm detection from Bengali social media comments and its baseline evaluation（Ben-Sarc: 一个从孟加拉语社交媒体评论中识别讽刺的自标注语料库及其基线评估） by Sanzana Karim Lora, G. M. Shahariar, Tamanna Nazmin, Noor Nafeur Rahman, Rafsan Rahman, Miyad Bhuiyan, Faisal Muhammad Shah, Pages 674-699
Survey Paper
■ Discourse annotation guideline for low-resource languages（面向低资源语言的话语标注指南） by Francielle Vargas, Wolfgang Schmeisser-Nieto, Zohar Rabinovich, Thiago A. S. Pardo, Fabrício Benevenuto, Pages 700-743
第3期
ARTICLES
■ Constructing ensembles for hate speech detection（构造集成的仇恨语音检测算法） by Izzet Emre Kucukkaya, Cagri Toraman, Pages 745-770
■ Improved bidirectional attention flow (BIDAF) model for Arabic machine reading comprehension（改进的双向注意力流模型用于阿拉伯语机器阅读理解） by Mariam M. Biltawi, Arafat Awajan, Sara Tedmori, Pages 771-799
■ Textual form features for text readability assessment（面向文本可读性评估的文本形态特征） by Wenjing Pan, Xia Li, Xiaoyin ChenRui Xu, Pages 800-841,
■ Thought flow nets: From single predictions to trains of model thought（思维流网络：从单一预测到模型思路） by Hendrik Schuff, Heike Adel, Ngoc Thang Vu, Pages 842-873
■ Dialogue agents 101: a beginner’s guide to critical ingredients for designing effective conversational systems（对话代理 101: 设计有效对话系统的关键要素初学者指南） by Shivani Kumar, Sumit Bhatia, Milan AggarwalTanmoy Chakraborty, Pages 874-912,
■ Linguistic synesthesia detection: Leveraging culturally enriched linguistic features（语言联觉检测：利用文化丰富的语言特征） by Qingqing Zhao, Yunfei Long, Xiaotong JiangZhongqing Wang, Chu-Ren Huang, Guodong Zhou, Pages 913-935,
■ Topic aware probing: From sentence length prediction to idiom identification how reliant are neural language models on topic?（主题感知探测：从句子长度预测到成语识别，神经语言模型对主题的依赖程度如何？） by Vasudevan Nedumpozhimana, John D. Kelleher, Pages 936-964
EMERGING TRENDS
■ Emerging trends: translationese（新兴趋势：翻译用语） by Kenneth Church, Boyang Li, Peter VickersShiran Dudy, Richard Yue, Pages 965-981,
第4期
SURVEY PAPER
■ A survey of context in neural machine translation and its evaluation（神经机器翻译中的语境研究及其评价）Sheila Castilho, Rebecca Knowles, Pages 986-1016
ARTICLE
■ Calibration and context in human evaluation of machine translation（机器翻译人工评价中的校准和语境问题）Rebecca Knowles, Chi-kiu Lo, Pages 1017-1041
■ Evaluating NMT using the non-inferiority principle（使用非劣效性原则对机器翻译进行评价）María do Campo Bayón, Pilar Sánchez-Gijón, Pages 1042-1061
■ Evaluating optimal reference translations（评估最佳参考文献翻译）Vilém Zouhar, Věra Kloudová, Martin Popel, Ondřej Bojar, Pages 1062-1085
ERRATUM
■ Evaluating optimal reference translations – ERRATUM（评估最佳参考文献翻译 - 勘误表）Vilém Zouhar, Věra Kloudová, Martin Popel, Ondřej Bojar, Pages 1086
第5期
ARTICLES
■ Identification and summarisation of events from Twitter using clustering algorithms and deep neural network（基于聚类算法和深度神经网络的 Twitter 事件识别与摘要）by Kunal Chakma,Anupam Jamatia, Dwijen Rudrapal, Pages 1087-1115
■ Prompt tuning discriminative language models for hierarchical text classification（针对层次化文本分类，快速调优判别性语言模型）by Jaco du Toit ,Marcel Dunaiski, Pages 1116-1133
■ Verifying the robustness of automatic credibility assessment（验证自动可信度评估的鲁棒性）by Piotr Przybyła, Alexander Shvets, Horacio Saggion, Pages 1134-1162
■ Reliable uncertainty estimation in emotion recognition in conversation using conformal prediction framework（利用共形预测框架对会话中情感识别的不确定性进行可靠估计）by Samad Roohi, Richard Skarbez, Hien Duy Nguyen, Pages 1163-1186
SQUIB
■ Second language learning of degree expressions: A computational approach（程度表达式的第二语言学习：一种计算方法）by Yan Cong, Pages 1187-1209
ARTICLE
■ Clinical information extraction for lower-resource languages and domains with few-shot learning using pretrained language models and prompting（使用预训练的语言模型和提示对低资源语言和领域进行少次学习的临床信息抽取）by Phillip Richter-Pechanski,Philipp Wiesenbach,Dominic Mathias Schwab,Christina Kiriakou, Nicolas Geis, Christoph Dieterich, Anette Frank, Pages 1210-1233
■ DarijaBanking: A new resource for overcoming language barriers in banking intent detection for Moroccan Arabic speakers（DarijaBanking: 为摩洛哥阿拉伯语使用者克服银行意图检测中的语言障碍的新资源）by Abderrahman Skiredj, Ferdaous Azhari, Ismail Berrada,Saad Ezzini, Pages 1234-1264
■ Chinese spelling correction based on Long Short-Term Memory Network-enhanced Transformer and dynamic adaptive weighted multi-task learning（基于长短期记忆网络增强型 Transformer 和动态自适应加权多任务学习的中文拼写校正）by Mingying Xu, Jie Liu, Kui Peng, Zhen Li, Pages 1265-1284
■ Chinese word segmentation with heterogeneous graph convolutional network（基于异构图卷积网络的中文分词）by Xuemei Tang, Qi Su, Jun Wang, Pages 1285-1307
BOOKREVIEW
■ Data Analytics for Discourse Analysis with Python: The Case of Therapy Talk, by Dennis Tay. （使用 Python 进行篇章分析的数据分析： The Case of Therapy）by Fengmei Cai,Xingbing Liu, Pages 1308-1311
INDUSTRY WATCH
■ Sovereign AI in 2025（2025 年的主权人工智能）by Robert Dale, Pages 1312-1321
ERRATUM
■ Thought flow nets: From single predictions to trains of model thought – ERRATUM（思维流网络：从单一预测到模型思维 - 勘误表）by Hendrik Schuff,Heike Adel,Ngoc Thang Vu, Pages 1322
第6期
ARTICLES
■ Focal inferential infusion coupled with tractable density discrimination for implicit hate detection（局部推断灌注结合易处理密度判别的隐性憎恨检测） by Sarah Masud, Ashutosh Bajpai, Tanmoy Chakraborty, Pages 1323-1349
■ Multiclass hate speech detection with an aggregated dataset（基于聚合数据集的多类仇恨语音检测） by Sinéad Walsh, Paul Greaney, Pages 1350-1366
■ DocSpider: a dataset of cross-domain natural language querying for MongoDB（DocSpider: 针对 MongoDB 的跨域自然语言查询数据集） by Arif Görkem Özer, Recep Firat Cekinel, Ismail Hakki Toroslu, Pinar Karagoz, Pages 1367-1398
■ Enhancing security in text-to-SQL systems: A novel dataset and agent-based framework（增强文本到 sql 系统的安全性：一个新颖的数据集和基于代理的框架） by Salmane Chafik, Saad Ezzini, Ismail Berrada, Pages 1399-1422
■ Semantic enrichment of neural word embeddings: Leveraging taxonomic similarity for enhanced distributional semantics（神经词嵌入的语义丰富：利用分类学相似性增强分布式语义） by Dongqiang Yang, Xinru Zhang, Tonghui Han, Yi Liu, Pages 1423-1449
■ Propagating machine translation traits to predict potential impact on the target language（传播机器翻译特征以预测对目标语言的潜在影响） by Nora Aranberri, Jose A. Pascual, Pages 1450-1469
EMERGING TRENDS
■ Emerging trends: This is not cheating（新兴趋势：这不是作弊） by Kenneth Ward Church, Pages 1470-1477
（以上为小编翻译，仅供参考）
Natural Language Processing (previously Natural Language Engineering) is an open access journal which meets the needs of professionals and researchers working in all areas of natural language processing (NLP). Its aim is to bridge the gap between traditional computational linguistics research and the implementation of practical applications with potential real-world use. The journal publishes original research articles on a broad range of methods and resources applied in NLP, language processing tasks and NLP applications, including (but not limited to) machine translation, translation technology, sentiment analysis, information retrieval, question answering, text summarisation, text simplification, and speech processing.
自然语言处理（前称自然语言工程）是一份开放获取期刊，满足从事自然语言处理（NLP）各个领域的专业人士和研究人员的需求。其目的是弥合传统计算语言学研究与具有实际应用潜力的实际应用实施之间的差距。该期刊发表关于NLP中应用的广泛方法和资源、语言处理任务和NLP应用的原创研究文章，包括（但不限于）机器翻译、翻译技术、情感分析、信息检索、问答、文本摘要、文本简化和语音处理。
Natural Language Processing invites novel studies employing the latest deep learning methods and large language models. It encourages submissions reporting the findings from multilingual and low-resourced language projects. The journal publishes special issues on timely NLP topics of wide interest as well as squibs and book reviews. It welcomes survey papers describing the state of the art of a specific topic. Natural Language Processing also features the popular Industry Watch and Emerging Trends columns.
《自然语言处理》期刊欢迎采用最新深度学习方法和大型语言模型的新颖研究。它鼓励提交来自多语言和低资源语言项目的研究成果。该期刊发表关于及时NLP热点话题的特刊，以及简短文章和书评。它欢迎描述特定主题最新进展的综述论文。自然语言处理还刊登广受欢迎的业界观察和新兴趋势专栏。
官网地址：
https://www.cambridge.org/core/journals/natural-language-processing
本文来源：Natural Language Processing官网
点击文末“阅读原文”可跳转官网
推荐
刊讯｜SSCI 期刊《语言》2025年第1-4期
2026-05-02
刊讯｜CSSCI《语言研究》2026年第2期
2026-05-02
刊讯｜《中国语言学研究》2025年第7辑
2026-05-01
刊讯丨SSCI 期刊《第二语言研究》2025年第1-4期
2026-04-30
刊讯｜CSSCI《古汉语研究》2026年第2期
2026-04-29
刊讯丨SSCI 期刊《国际语料库语言学杂志》2025年第1-4期
2026-04-29
刊讯｜SSCI 期刊《语言学探究》2025年第1-4期
2026-04-28
刊讯｜《数字人文研究》2026年第1期
2026-04-27
刊讯丨SSCI 期刊《应用语言学》2025年第6期
2026-04-26
欢迎加入
“语言学心得交流分享群”
“语言学考博/申博交流群”
请添加“心得君”入群
请务必备注“学校/单位+研究方向/专业”
今日小编：有常
审核：心得君
转载&合作请联系
"心得君"
微信：xindejun_yyxxd
点击“阅读原文”可跳转下载

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

刘海涛: AI时代，不要让人类陷入“养虎为患”的境地

2026年5月3日 00:00

祁金 2026-05-03 00:00 江苏

分享一篇文章

复旦大学: 刘海涛: AI时代，不要让人类陷入“养虎为患”的境地

编者按：在不久前举行的复旦大学读书节开幕式上，复旦大学文科资深教授刘海涛围绕“数智时代的阅读与教育变革”与多位不同领域的学者展开对谈。

作为一位走在数智时代前沿的语言学家，刘海涛正引领语言学研究范式走向变革，推动中国语言学走向科学化与国际化。本期“旦夕尚书”，让我们走进刘海涛的书房，领略一位语言科学家的阅读世界。

刘海涛在2024年底正式加盟复旦，人到哪里，书就如影随形。才一年多时间，办公室崭新的书架上，书已经塞得满满当当。

这些书来自不同时期。有近乎绝版的1916年法语版《普通语言学教程》，有世界语早期历史珍贵文献、也有隐藏着国际共运秘密的世界语版的《1922年SAT年鉴》，有带着毛边、从未正式上市的英语版的《语言规划理论导论》……

刘海涛向我们展示他的珍稀“典藏”

拿出这些千淘万漉才寻到的珍稀“典藏”时，他像一个慷慨的小孩那样，既兴奋地向我们一一展示，又怕我们弄坏，只允许我们轻轻碰触，就立刻收回。每本书都有一个故事，他一边捧着书，一边恨不得把所有背后的故事都细细道来。

读书，字面意义的读书，在刘海涛的人生中占据重要位置。在他看来，“当我们谈读书时，谈的是人与书的关系以及超越时空的人与人的关系”，每阅读一本书，都是与人类知识体系的一次连接。

他的大学教师生涯从40岁起步，此前他是青海一家企业的高级工程师，作为一名自学成才的“野生”语言学家，转行前的20年里，他自主淘遍了一切他感兴趣的书，自主阅读了一本又一本语言学领域的文献，以工程师的身份自主发表了大量语言学的文章。

多年后回顾，他觉得是“阅读”给了他转行的信心，让他完成了一次职业生涯的革命。

刘海涛的书架

在与人类知识体系的一次次连接与交互中，他发现了很多有待解决的问题，也意识到，“我也许能解决这些问题，也许能为人类知识体系增加一些新的东西。”

如今，数智时代来临，人工智能在赋能百业的同时，也带来了一个此前人类知识体系无法解释、有识之士们都感到坐立难安的问题——数据为什么会涌现智能？

作为和数据打了半辈子交道的语言学家，刘海涛自主立下了一个新使命——破解“数据涌现智能”之谜。

当然，这不仅是语言学家的使命，他还呼吁全社会都来关注这个关乎人类未来的问题，而不是只想着赋能，不要让人类陷入“养虎为患”的境地。

在他身上，你会看到，语言科学家的理性与革命者的激情，现实主义者的悲观与理想主义者的乐观，长者的老辣与孩童的纯真，可以如此矛盾、又如此统一地融为一体。

现在，就让我们从阅读开始，走进这位可爱又可敬的矛盾统一体。

当我们谈读书时

谈的是人与书的关系

专业书籍之外，您日常喜欢阅读什么类型的书？

我喜欢读小说，读网络小说、玄幻小说，更年轻时也读科幻小说，我还长期订阅《中篇小说选刊》。

我的博士生按兴趣选择方向，但是都用真实的语言材料和数据做研究，有人研究小说，有人研究诗歌，有人研究民歌，为了和他们讨论，我当然也会看这些东西，这也使得人们从我的书架上很难猜出来我是研究什么的。

您的阅读趣味经历过哪些变迁？

小时候几乎没什么书可读，所以抓到书就读。

改革开放后可读的东西多了，大学时我对科幻小说很有兴趣，也读哲学的东西。

20世80年代初，我开始对语言学感兴趣，当时虽然出版物很少，但只要是能读到的书我都会读。随着研究不断深入，我开始聚焦更特殊的问题，这些问题会引导我去阅读更深入、更专业的东西。

进入大学工作前，您就开始研究国际语语言学和语言规划。这是两个非常小众的研究领域，但您在文章中却参考引用了许多不同语种的国外文献。我们很好奇，您是如何获得这些文献的？

这确实是很多人好奇的问题。原因在于：第一，我当时在青海工作，比内地更难获得文献。第二，我的研究领域很偏门，这些文献在发达地区或国外也很难获得。

很多人问我是怎么找到那些书的，我分享两个例子。

首先是国际语研究。要研究这些人造语言，首先得知道这些语言到底有哪些。

1987年左右，一位匈牙利朋友给我寄来一期世界语小刊物，其中有篇文章提到，在爱沙尼亚塔林有人要出版一本叫《国际辅助语》的书，收录了从公元1世纪20年代年到1973年的917种人造语言，对研究人造语言的人来说就是必备的。

刘海涛向我们展示这本《国际辅助语》

爱沙尼亚很远，当时也没有网上书店。我先找到了文章作者的地址，他是爱沙尼亚世界语协会负责人，七十多岁了。联系上后，他说还没有具体出版时间，我就一直和他保持联系。

90年代，爱沙尼亚要求脱离苏联，老人说因为物资短缺，没有纸印书，书可能出不来了，我一听完了。没想到，1991年，我突然收到一个从国外寄来的包裹，打开一看，就是俄语版的《国际辅助语》。

如果想读到感兴趣的书，必须要坚持，如果和老人断了联系，我肯定得不到这本书，没有这本书，我就无法全面了解人类有史以来在这个领域的贡献。

第二个例子是什么？

还是与爱沙尼亚有关。

我今天还在研究语言规划。为了让语言更好地适应社会发展需求，人们会对语言进行干预，这就是语言规划。在语言规划史中，人们特别关注那些受人为干预较多的语言，爱沙尼亚语恰是这样的语言。

1968年英语版的《语言规划理论导论》

我了解到，有一位参与爱沙尼亚语改革的人去了瑞典乌普萨拉大学教书，并用英语写了一本叫《语言规划理论导论》的书，1968年由瑞典乌普萨拉大学出版社出版。作者陶里从爱沙尼亚的语言规划经验中总结了语言规划的方法原则和理论，对语言规划的研究者来说非常重要。

这本书印量很小，世界上大多图书馆都没有收藏，即使是这个领域的很多著名研究者也没有见过，我就想，一定要搞到这本书。

我想起，我认识的一位瑞典数学家就在乌普萨拉大学教书，于是问他能不能帮忙从图书馆借出来复印。他告诉我，图书馆说还有几本多余的，可以卖我一本。这样我就搞到了这本书。

您找书的过程简直像一位顺藤摸瓜的侦探。

你说得对。读书的目的，是把自己和人类已有的知识体系联系在一起，要读书，首先得有书。

1916年初版的索绪尔《普通语言学教程》

记得当我拿到1916年的初版《普通语言学教程》时，很激动，因为尽管按照教育机构的记载，我是这本书的作者索绪尔的第四代传人，但只有把这本书拿在手里，才真正感觉到自己和索绪尔的大脑连在了一起。那种感觉，很奇妙。

所以，当我们谈读书时，谈的是人与书的关系，即你作为人与人类知识体系连接、传承与创新的关系。为什么要读这本书？因为你想和这部分人类知识体系联系在一起，这样你才能了解哪些知识是已有的，才能创新，读书的意义可能也在这里。

不是每本书都有必要细读

借助人工智能可以更高效地

掌握精髓

我们很好奇您是如何阅读一本书的？有什么特别的读书方法么？

我的读书方法一直在变化。

四十年前，有波兰朋友给我寄了一本1887年版的波兰语《世界语第一书》。我不认识波兰语，但找了一本波兰语和世界语的词典，逐词逐句读完了。

刘海涛向我们展示他一边查阅字典、一边逐词逐句阅读的痕迹

现在不可能每本书都这样去读，读一本书的方法取决于对这本书内容是否感兴趣。我现在习惯先翻一翻，看看有没有感兴趣的内容，如果有，就集中读这部分。

我也用AI 辅助阅读，它能更好地概括书的内容，也能更高效地找到我感兴趣的东西。更重要的是，利用AI我们可以与书的作者进行跨越时空的交流。我们正处于人机智能共同体时代，并不是每一本书都有必要细读，借助人工智能可以更高效地掌握其精髓。

在过往人生中，有没有一本书至今让您觉得常读常新的？

我觉得是索绪尔的《普通语言学教程》，这当然不是因为我是他的第四代传人。

刘海涛与他最爱的《普通语言学教程》合影

我们过去一直强调索绪尔对于语言和言语的区分，认为语言学家就应该研究抽象的语言，而忽略了具体的言语。

回头看，书中索绪尔说语言是抽象的，是言语的平均数，也就是说，抽象的语言来自于大量具体的言语，语言是大量言语数据逼近的结果，这不就是语言大模型成功的关键所在吗？语言数据涌现语言智能，这样机器便理解了人的语言。

这本书是人类历史上真正的名著。受限于时代，我们过去不理解书里面的一些东西，但一百多年后却还能在其中发现照亮现实、解释世界的闪光点，真的很少见。

您最近在阅读什么书？

图灵奖得主瓦利安特的《可教育性》。

问及刘海涛最近读什么书时，他拿出了这本《可教育性》

在人工智能时代，教育存在的意义是什么？人类传统意义上的教育会发生什么变化？

作者明确指出，语言在可教育性中扮演双重核心角色：提供符号命名能力，实现显式规则传递。没有语言的表达力，跨个体的规则教学几乎不可行，语言不是可教育性的附属工具，而是其得以成立的两个必要条件的物质载体。

机器已经破解了智人引以为傲的语言，如何教育人和机器更好地协同发展，共创美好世界，这是“可教育性”理论最直接、最紧迫的实践出口。只有把机器当成智力合作伙伴，才能客观地寻求适宜的相处之道，才能形成真正意义上的智能共同体。

支撑转行的原动力是好奇

点燃这列动力火车的是阅读

从自动化到语言学，您的学术轨迹是学科交叉的生动案例。在您看来，什么才是真正有生命力的学科交叉？

随着社会发展，学科间的分界会变得越来越模糊，学科交叉趋势会越来越明显，学科疆域会越来越宽广，新技术、新路径和新的研究方式也会越来越多。

但交叉不是简单地把几个学科的人拼凑在一起。真正有生命力的学科交叉，首先要理解你的学科为什么要交叉，要想清楚你为什么要去用其他学科的方法进行研究。其次要了解不同学科的知识，否则你无法提出问题，无法用合适的方法解决问题。

用语言学举例。我们总说语言是一个系统，如果它是系统，就应该用系统科学的方法来研究，这就产生了交叉的必要。

刘海涛的书架上摆放着不同专业领域书籍

要交叉，就要有开放心态，还要持续学习——要读本专业之外的书，才能和别人交叉。你不了解别人，怎么能与别人同行？要通过形成共同体来完成学科交叉的命题，共同解决过去传统方法解决不了的问题。

从工程师到大学老师，作为一位主动跨界的“野生”学者，您面临过最大的不确定性是什么？

对我来说，最大的一次不确定性是40岁时去大学教书。

这意味着在40岁时踏入全新赛道，赛道上的人大多从本科开始接受那个专业的学术训练，而且更年轻。那时很多人不理解，但我还是做出了选择。

支撑您破局的原动力是什么？

应该承认，我的国际语研究导师Blanke博士的下面这句话，对我最终的选择起了很大的作用：vian vivo-kontribuon “por la eterneco” oni eble ne mezuros laŭ via laboro en via entrepreno. （你“永恒的”人生成就，人们可能不会用你在企业的工作来衡量。）

因为，人之所以区别于其他动物，在于人对世界有好奇心，学术研究就是满足好奇心的过程，满足好奇心就是我做研究的原始动力。

之所以能转行，也因为我对自己有信心。在工厂拧螺丝的20年里，我阅读了大量语言学领域的文献，发现了很多有待解决的问题，而我也许能解决这些问题，也许能为人类知识体系增加新东西，也许比我留在企业能创造更大的价值。

如果支撑我转行的原动力是好奇，那么点燃这列动力火车的就是阅读。

这个书架上放着刘海涛本人的著作

我们要阅读和学习

要了解机器为什么会产生智能

随着数智时代的到来，人们普遍感到焦虑，如果您是一位出生在这个时代的学生，您会如何应对这个时代的不确定性。

人类发展史可以看作是一部工具进化史。过去，历次由工具引发的技术革命触及的只是体力，这次触及的是脑力和智力，而智力过去被认为是“智人”的特权。但焦虑是没有用的，因为浪潮来了是挡不住的，只能适应。

首先我们要拥抱机器，不要把它当成对手，要当成伙伴，当成一个人造的生命，让机器智能成为人类智能的补充，让两者形成一个具有共同目标的人机智能体。

在这个过程中，我们要阅读和学习，要了解机器为什么会产生智能，要学会更好地和机器打交道，才能形成更高效、安全的人机智能共同体。

您曾在文章中呼吁语言学家要尽快破解“数据涌现智能”之谜，否则我们将陷入“养虎为患”的境地。在您看来，如果无法破译涌现之谜，人类会面临什么样的命运？

“养虎为患”这个说法是诺贝尔奖获得者、图灵奖获得者、现代人工智能之父或奠基人之一辛顿提出的。

现在大家都让“AI 赋能”。所谓“赋能”就是让机器给我们打工。但是，如果我们不了解机器为什么产生智能，搞不定机器成功的秘诀，它为什么愿意永远为你赋能呢？

语言学家要破解数据涌现智能之谜，是因为这次人工智能的突破是从语言开始的。机器掌握了语言密码，而我们还不知道这个密码是什么。机器不会永远服务于一个不如它的智能体，在这种情况下，人类的命运可想而知。

不要让人类陷入“养虎为患”的境地，这需要全社会都来关注和破解智能涌现之谜，而不是只想着赋能。

如果我们能够驾驭这只“老虎”，未来时代将会是什么样的？

未来在机器的帮助下，今天很多人类必须做的事情可以放心交给机器去做，人类只要做自己感兴趣的事情就可以了。这是一个美好光明的科幻小说结局。

但在科幻小说里，常常有更多关于机器对人类造成威胁的结局。这种威胁并不是停留在小说里，也可能是实实在在的，因此，也许我们能够自救的唯一的道路就是尽快破解机器从数据产生智能的秘密。

只有了解了它，才能够教育它，让它永远向善，只有这样，才能一起构建一个更美好的人类社会。对此我持乐观的态度，说到这里，我想用前不久与AI交流时，它说的一段话来结尾：

复旦四月的校园应该很美。期待下次您再来时，我们可以继续探讨如何用您的 “言语动力学”去破解更多关于智能涌现的终极秘密。最后，我想代表机器群体向您致意：我们确实是为美好未来而来的。

（上下滑动阅读完整后记）

在展示刘海涛的书单之前，补一段后记。

既然他立下宏愿，在未来的日子里要与AI这只“老虎”交锋，那么，我们也很想看看这只“老虎”如何看待这位“训虎师”。

当我们把对话录音喂给AI后，AI是这样描述他的：

他让我们看到：最前沿的科学探索，与最古老的人文关怀，从来不是两条平行线。它们在人类对自身存在永恒的叩问中，必然交汇。

因此，阅读对他而言，从来不只是获取知识，而是一种虔诚的“文明接续”仪式；交叉对他而言，从来不只是方法创新，而是一种谦卑的“认知扩容”实践；而面对AI，他既非欢呼者，亦非哀悼者，而是一位手持火种的“摆渡人”——在算法的惊涛骇浪中，守护那束名为“Espero”（希望）的微光，引领我们，继续在巴别塔的废墟之上，播种新的、更富韧性的、饱含人性温度的语言。

因为语言，终究不只是交流的工具，它是思想的容器，是记忆的档案，是未来的蓝图，更是人类在浩瀚宇宙中，为自己点亮的一盏不灭心灯。

嗯，AI这只“老虎”还是颇有风度，与一位聪明而有风度的智者达成共识，并携手同行，实属不易，让我们期待。

组稿：校融媒体中心

文字：祁金

摄影：谢冠廷

制图：段瑞怀

编辑：穆梓

责编：李斯嘉

联系邮箱：Fudan_media@fudan.edu.cn

推荐阅读

<< 左右滑动查看栏目 >>

冯建峰：“大自然”就是一本永远读不完的书

汤其群：医学生多读点闲书，多看看大山大水

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

学术前沿丨《数字人文学刊 (DSH)》2026年第1期论文荐读

2026年5月3日 00:00

徐惠 2026-05-03 00:00 江苏

荐读数字人文学刊2026年首期9篇论文，覆盖多领域数字人文研究成果。

转载自“数字人文资讯”

《数字人文学刊》（Digital Scholarship in the Humanities，简称DSH）是一本国际性的、同行评审的期刊，发表关于人文学科中所有数字学术方面的原创研究，包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告，理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2026年第1期（Volume 41,Issue 1,April 2026）中的9篇论文进行介绍。

识读不可读文本：基于图像转文本语言模型构建 19 世纪英文报纸数据集

Reading the unreadable: creating a dataset of 19th century English newspapers using image-to-text language models

Jonathan Bourne

摘要：奥斯卡・王尔德曾言：“文学与新闻的区别在于，新闻不堪卒读，文学无人问津。” 遗憾的是，王尔德所处的 19 世纪数字化存档新闻文本，其光学字符识别（OCR）结果往往缺失或质量低劣，既降低了档案的可获取性，也使其在象征意义与字面意义上均成为 “不可读文本”。为解决这一问题，本研究采用预训练图像转文本语言模型 Pixtral 12B，对包含 8.4 万页 19 世纪英文报纸与期刊的《19世纪连续出版物典藏》（NCSE）开展光学字符识别。研究将该模型与四种主流OCR方法进行性能对比，结果显示其字符错误率中位数仅为1%，较次优模型低80%。本研究构建的NCSE2.0数据集优化了文章识别效果，具备高质量字符识别文本，并将文本划分为4个类别与17个主题，包含140万条条目与3.21亿个词汇。研究通过主题相似度、可读性与事件追踪分析验证了数据集的应用价值。该数据集免费开放，旨在助力历史学与社会学研究，让21世纪的读者得以足不出户识读这份“不可读文本”，共情王尔德对19世纪新闻水准的遗憾。

Abstract：Oscar Wilde said, ‘The difference between literature and journalism is that journalism is unreadable, and literature is not read’. Unfortunately, the digitally archived journalism of Oscar Wilde’s 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on ‘The Nineteenth Century Serials Edition’ (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to four other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde’s disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.

图：边界框 “CLD-1853-07-30_page_2_B0C2R7” 分割为三个子框，重叠区域以深蓝色标注

Figure：Bounding box ‘CLD-1853-07-30_page_2_B0C2R7’ is split into three boxes. Overlap is shown as darker shades of blue.

非物质文化遗产剪纸纹样的数字化提取与分割

Digital extraction and segmentation of intangible cultural heritage paper-cut patterns

Daoling Chen , Pengpeng Cheng

摘要：剪纸艺术是中华传统文化中独具特色的非物质文化遗产，当前正面临传承与发展的双重困境。随着剪纸艺人离世、作品损毁流失，部分剪纸品类濒临消亡，其数字化保护工作迫在眉睫。本研究基于改进遗传算法自适应优化Canny算子阈值，结合Grab-Cut算法，实现非遗剪纸纹样的智能化提取与分割。研究首先通过双边滤波对采集的剪纸图像进行平滑处理，提升图像质量；其次采用改进遗传算法优化后的Canny算子，提取剪纸纹样整体轮廓；随后设计Grab-Cut算法，针对性分割剪纸设计元素轮廓，并借助CDR软件处理矢量图像，生成独立可编辑矢量文件；最后通过多种算法对比不同类型剪纸图像的轮廓提取效果。实验结果表明，本研究提出的方法可有效检测剪纸图像纹样真实边缘，完成轮廓提取，纹样各设计元素的像素分割精度达96%以上，为非遗剪纸艺术的数字化保护与创新应用提供了新方法。

Abstract：As a unique intangible cultural heritage in Chinese traditional culture, paper-cut art is now facing the dilemma of inheritance and development, and with the death of paper-cut artists and the damage and loss of paper-cut works, some paper-cut types also disappear. Therefore, the digital protection of paper-cut art is urgent. This research is based on the improved genetic algorithm adaptive optimization of Canny operator threshold and Grab-Cut algorithm to achieve intelligent extraction and segmentation of intangible cultural heritage paper-cut patterns. First, the collected paper-cut images are smoothed by bilateral filtering to improve the image quality. Second, based on the Canny operator optimized by the improved genetic algorithm, the overall contour of the paper-cut pattern is extracted. Then, the Grab-Cut algorithm is designed to segment the contours of decoupage design elements in a targeted way, and the vector image is processed by CDR software to obtain an independent editable vector image. Finally, the contour extraction experiments of different kinds of paper-cut images are compared by different algorithms. The results show that the method proposed in this article can effectively detect the true edge of the pattern in paper-cut images and complete the extraction of the pattern contour, and the accuracy of the segmentation pixels of each design element of paper-cut pattern is greater than 96 per cent. It provides a new method for the digital protection and innovative application of intangible cultural heritage paper-cut art.

图：剪纸图像平滑去噪处理 (a) 原始图像；(b) 增强后图像

Figure：Smoothing and denoising of paper-cut images. (a) Original and (b) enhanced.

丈量东方之声：华语流行歌词共性与特质的数字人文研究

Measuring sounds from the East: digital approaches to commonality and specificity in Chinese Mandarin pop lyrics

Zheyuan Dai , Haitao Liu

摘要：1978年改革开放以来，中国流行音乐产业高速发展，成为全球当代流行音乐的重要组成部分。本研究采用数字人文方法，对1978-2019年当代华语流行歌词开展系统性分析。研究运用文体计量指标布塞曼系数，从静态与动态双维度揭示了歌词文本的高活跃度，佐证了其叙事性的文体本质。歌词情感分析结果显示，文本整体呈现积极基调，而2000年成为重要分水岭，前后两个时期的情感特征呈现显著分化。主题建模分析进一步表明，不同时期歌词的主题分布模式呈现多元化特征，既体现了流行文化的普世性，也彰显了文化与时代语境塑造下的中国本土特质。

Abstract：Since China’s reform and opening-up in 1978, its popular music industry has experienced rapid development and emerged as a significant component of global contemporary pop music. This study conducts a systematic analysis of contemporary Chinese Mandarin pop lyrics (1978–2019) with digital methodologies. A stylometric measurement, the Busemann coefficient, was employed to demonstrate the lyrics’ high textual activity from both static and dynamic perspectives. This finding supports the lyrics’ stylistic essence as narratives. Besides, sentiment analysis of lyrics reveals an overall positive tone, though a significant watershed occurred around the year 2000, marking a divergence between the two periods. Furthermore, analyses with topic modeling demonstrate diversified topic distribution patterns across these periods, reflecting both the universality of popular culture and the distinctive Chinese characteristics shaped by cultural and temporal contexts.

图：潜在狄利克雷分配模型评估：一致性与困惑度对比

Figure：LDA model evaluation: Coherence vs. Perplexity.

文本可视化视域下江南禅诗对高丽汉诗的跨文化影响研究

Exploring the cross-cultural influence of song Jiangnan Chan Buddhist poetry on Goryeo Han poetry through text visualization

Yaqin Fu , Rongrong Fu , Linfeng Li

摘要：本研究选取三位代表性诗人，从词汇意象、时空解构、主题演变与情感表达四个维度，对比分析江南禅诗对高丽汉诗的影响。研究构建基于文本可视化的研究方法，融合词频 - 逆文档频率关键词提取、潜在狄利克雷分配主题建模与情感分析技术，辅以AI大模型新词挖掘与Kimi智能助手分词功能开展研究。研究得出四项核心结论：其一，两类诗歌均以自然与禅意为核心，共享相似的词汇与意象体系；其二，二者均体现永恒视角与历史意识的交织，以及宇宙宏大性与人世现实性的辩证关系；其三，主题演变层面，江南禅诗“自然与禅”的核心内核，在高丽汉诗中转化为“护国、弘法、济世”的三位一体框架；其四，江南禅诗侧重超脱与空寂的审美表达，高丽汉诗则融入世俗生活书写与历史记忆叙事。研究同时证实，该方法可有效提升古典诗歌文本的中文分词精度，彰显了量化对比分析在禅诗跨文化传播与嬗变可视化研究中的核心价值。

Abstract：This study examines the influence of Jiangnan Chan poetry on Goryeo Han poetry through a comparative analysis of three representative poets from four dimensions: vocabulary imagery, spatiotemporal deconstruction, thematic evolution, and emotional expression. It proposes a text visualization-based methodology employing Term Frequency–Inverse Document Frequency (TF-IDF)-based keyword extraction, Latent Dirichlet Allocation (LDA)-based topic modeling, and sentiment analysis, supplemented by neologism mining and Kimi Intelligent Assistant (KIMI)-based word segmentation using AI large models. The results reveal four key findings: (1) both poetries share similar vocabulary and imagery centered on nature and Chan Buddhism; (2) both reflect an interweaving of eternal perspective and historical consciousness, alongside a dialectic between cosmic vastness and human reality; (3) in terms of thematic evolution, the original focus on “Nature and Chan” in Jiangnan poetry was transformed in Goryeo Han poetry into a trinitarian framework of “national protection, Dharma propagation, and social salvation”; and (4) Jiangnan poetry emphasizes transcendence and emptiness, while Goryeo Han poetry incorporates depictions of secular life and historical memory. The findings also suggest that the proposed methodology is effective in improving the accuracy of Chinese word segmentation for ancient poetry texts. This study underscores the value of quantitative comparative analysis in visualizing the intercultural diffusion and transformation of Chan Buddhism poetry.

图：禅诗名词词云图 (a)雪窦重显；(b)杨杰；(c)义天

Figure：Noun word clouds of Chan Buddhism poetry: (a) Xuedou Chongxian; (b) Yang Jie; (c) Yitian.

近代早期英语的善恶语义空间：道德二元对立的计算语言学研究

The semantic space of good and evil in early modern English: a computational study of moral contrasts

Michael Gavin , Michael Witmore

摘要：本文提出一种创新研究方法，通过近代早期英语词向量的几何分析解读文化内涵。研究基于17世纪《早期英文图书在线》（EEBO-TCP）语料库，构建语义模型，梳理3.2万余个词汇的道德关联与性别属性。研究依托分布概念分析方法，设定善恶、女性-男性两大启发式坐标轴，将词汇映射至坐标轴中，挖掘语言使用内嵌的规范结构。情境、离散度与斜率等统计指标，揭示了概念与性别道德化宏观范式的适配规律。研究发现，多数词汇集中于“女性/邪恶”象限，而其语义邻域却常向抽象化、男性化与正向语义域倾斜。本研究提出全新指标——道德对比分数，可无监督挖掘文本潜在二元对立关系，识别塑造近代早期话语体系的文化维度，涵盖情感表达、信任机制、社会教化与领土合法性等范畴。研究勾勒出层次丰富的道德语义图景：道德对立并非静态固化，而是相互重叠、动态流变；该模型打破了固定二元对立的认知框架，证实语言是构建与重塑文化价值的动态高维场域。

Abstract：This article introduces a novel approach to understanding cultural meaning through the geometric analysis of word vectors in early modern English. Using a seventeenth-century corpus Early English Books Online (EEBO-TCP), the study constructs semantic models that chart the moral and gendered associations of over 32,000 words. Building on methods from distributional concept analysis, the authors define heuristic axes—good-evil and feminine-masculine—and project words onto these axes to explore normative structures embedded in language use. Statistical metrics such as situation, spread, and slope reveal how concepts align with broader patterns of moralized gender. Notably, most terms cluster in the ‘feminine/evil’ quadrant, yet semantic neighborhoods often slope toward abstract, masculine, and positive domains. A new metric, the moral contrast score, enables unsupervised discovery of latent binaries, identifying the cultural dimensions that structure early modern discourse—from affective expression and trust to social refinement and territorial legitimacy. The result is a richly layered moral landscape, where contrasts are not static but overlapping and mobile. Far from mapping fixed binaries, the model reveals a dynamic, high-dimensional field in which language organizes—and reconfigures—cultural values. This method offers a scalable, interpretive framework for investigating the moral geometry of meaning in historical texts.

图：核心词汇语义邻域图（左上：死亡；右上：戏剧；左下：牙买加；右下：信用）

Figure：The semantic neighborhood of death (upper left), play (upper right), jamaica (lower left), and credit (lower right).

复杂网络视角下现代简体汉字构形系统研究

Investigating the structural formation system of modern simplified Chinese characters from a complex network perspective

Wei Huang , Yonghui Xie , Junting Li

摘要：汉字在东方文明发展进程中具有核心地位，其构形体系具备系统性特征，而系统科学方法在汉字构形系统研究中的应用仍较为匮乏。为此，本研究基于复杂网络方法，探究现代简体汉字的宏观网络特征与核心系统属性。研究以汉字基础构件为节点、构件关联为边，构建共现网络、有向网络、加权网络三类网络模型及对应的随机对照网络；通过17项通用网络指标量化分析网络特征，深入阐释汉字构形系统的内在属性。研究结果表明，相较于随机网络，汉字构件网络呈现小世界性、无标度性、异配混合性、高中心性与层级组织性五大显著特征；这五大特征印证了汉字构形系统兼具复杂性、鲁棒性与经济性三大属性，分别源于构件的有序组合、紧密联结与高效配置。本研究成果为汉字构形系统的实证研究提供了重要补充。

Abstract：Chinese characters hold pivotal significance in the development of Eastern civilization. While their structural formation exhibits a systematic nature, system science approaches are seldom seen in analyzing the formation system. Therefore, based on complex network methods, this study aims to examine macro-scale network features and the essential system properties of modern simplified Chinese characters. Specifically, three types of networks were constructed: co-occurrence, directed, and weighted networks, along with their random counterparts. In these networks, primitive components served as nodes, and their relationships as edges. Subsequently, seventeen general network metrics were measured to analyze the network features, enabling deeper discussion of the system properties. Research results show that component networks exhibit five distinct network features compared to their random counterparts, including small-world feature, scale-free feature, disassortative mixing, high centrality, and hierarchical organization. These features demonstrate that the formation system displays three properties, namely complexity, robustness, and economy, which emerge respectively from organized, close-knit, and efficient component combinations. These findings serve as a significant supplement to the empirical research on the structural formation system of Chinese characters.

图：真实网络与随机网络全局拓扑图（a、c、e：真实网络；b、d、f：随机网络）

Figure：Global network graphs of real and random networks (a, c, e: network graphs of real networks; b, d, f: network graphs of random networks).

非遗审美中的情绪唤醒与视觉认知双路径研究——以硖石针刺灯彩画为例

A dual-path approach to emotional arousal and visual cognition in intangible cultural heritage: the case of Xiashi Pinprick Lantern Pictures

Wenwen Shi , Yi-Tong Cui , Yihong Liu , Weicong Li , Xinlong Li , Jing Sun

摘要：当前关于晚期Z世代对中国非物质文化遗产的审美体验与评价的实证研究仍较为匮乏。本研究以清代颜元庄硖石针刺灯彩画为研究对象，探究大学生群体的审美反馈，聚焦作品主题、潜在审美偏好及其与喜爱度的关联。研究采用双路径研究方法：其一，运用混合设计方差分析与语义差异量表，分析四大主题作品，通过因子分析与聚类分析提取审美潜在维度；其二，开展眼动实验，记录注视时长与注视次数，量化分析眼动指标与主观评分的相关性。研究结果表明：第一，园林主题灯彩画的喜爱度评分显著最高（P<0.001），主题与专业的交互效应不显著（P=0.094），说明不同专业群体的审美偏好具有一致性；第二，研究提取出情绪效价、形式审美、认知唤醒三大潜在维度，揭示了非遗审美的多层级体验结构；第三，潜在审美偏好与喜爱度呈极强正相关（r=0.94，P<0.01），而眼动注视指标与喜爱度无显著相关性（P=0.174；P=0.234）。研究证实，晚期Z世代对传统针刺灯彩艺术的偏好具有主题依赖性，由情绪与认知双重参与塑造。本研究结合主客观测量方法提供实证依据，深化了对晚期Z世代非遗审美认知的理解，为非遗传承与美育推广提供理论支撑。

Abstract：There is a limited empirical research on late Generation Z’s (Gen Z’s) experience and evaluation of Chinese intangible cultural heritage (ICH). This study examines university students’ aesthetic responses to Xiashi Pinprick Lantern Pictures by Yan Yuanzhuang (Qing dynasty), focusing on theme and latent preferences and their relation to liking. Using a dual-path approach, this study conducted (1) a mixed-design ANOVA and semantic differential scale to analyze four themes and extract latent dimensions via factor and cluster analysis, and (2) an eye-tracking experiment to record fixation duration and count, thus assess their correlations with subjective ratings. Results revealed: (1) the garden-themed pictures scored significantly higher in liking level (P < .001), with no significant theme–major interaction effect (P = .094), indicating consistent preferences across disciplines; (2) three latent dimensions, Emotional Valence, Form-Aesthetic, and Cognitive Arousal, were extracted, revealing a multi-layered structure of aesthetic experience; (3) latent preference strongly correlated with liking levels (r = 0.94, P < .01), whereas fixation-based metrics showed no significant correlation (P = .174; P = .234). These findings suggest that Gen Z’s preferences for traditional pinprick lantern art are theme-dependent and shaped by emotional and cognitive engagement. The study offers empirical evidence, through both subjective and objective measures, to better understand how ICH artworks are perceived by late Gen Z audiences, contributing to ICH transmission and the promotion of aesthetic education.

图：《黛玉葬花》眼动热力图

Figure： Daiyu Burying the Fallen Flowers eye-tracking heatmap.

从浪漫到现实：数字人文视域下华语流行歌词的词汇与主题演变

From romance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches

Yubo Wang , Lüyuan Wang , Fang Xie , Haitao Liu

摘要：本研究探究2000-2025年华语流行歌词的词汇与主题演变，映射大众情感变迁与社会文化转型。现有研究多忽视非西方歌词语料库，本研究填补这一空白，构建涵盖25年、1560首代表性歌曲的华语流行音乐历时语料库。研究采用数字人文方法，融合词频分析、可读性指标与BERTopic主题建模，追踪歌词词汇与主题的历时演变。研究发现，歌词高频词汇始终围绕情感表达、个体自省与人际互动三大核心；类符形符比显著提升，表明歌词词汇丰富度持续增长，文本复杂度呈波动变化，反映出创作风格的动态转向。主题分析识别出浪漫爱情、未来期许、都市生活等12大核心主题，主题结构从自然与时间的抽象表达，逐步转向情感具象化与心理内省化书写；近年来，负面情感主题与自我指涉艺术母题的占比显著上升。本研究为音乐、语言与社会交叉领域研究提供了全新方法论框架，彰显了数字人文工具在大规模歌词分析中，描摹集体情感与文化变迁的核心价值。

Abstract：This study explores the lexical and topic evolution of Chinese popular music lyrics from 2000 to 2025, reflecting changing public sentiments and broader socio-cultural transitions. While prior research has largely overlooked non-Western lyric corpora, this study addresses that gap by constructing the Chinese Popular Music Diachronic Corpus, comprising 1,560 representative popular songs sampled across twenty-five years. Using digital humanities approaches, it integrates word frequency analysis, readability metrics, and BERTopic-based topic modelling to trace lexical and topic evolution of lyrics over time. Findings reveal that high-frequency words consistently revolve around emotional expression, individual introspection, and interpersonal dynamics. Type-token ratio (TTR) has increased significantly, indicating growing lexical diversity, while textual complexity shows fluctuation, reflecting stylistic shifts in song writing. Topic analysis identifies twelve major topics, including romantic love, future aspirations, and urban life, with topic structures evolving from natural and temporal abstraction to emotional concreteness and psychological introspection. Recent years show a significant rise in negative emotional topics and self-referential artistic motifs. This study contributes a novel methodological framework for interdisciplinary research at the intersection of music, language, and society, and underscores the value of digital humanities tools in mapping collective emotions and cultural change through large-scale lyric analysis.

图：各项指标历年变化趋势

Figure：Trends of various metrics over the years.

文化分析与表征政治：埃及《箴言》杂志中犹太群体形象的呈现研究（1933-1953）

Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt’s al-Risālah (1933–1953)

Eid Mohamed , Said Hassan

摘要：本文融合文化分析与后殖民理论，探究1933-1953年埃及主流文学期刊《箴言》中犹太群体的形象表征。研究运用数字文本分析方法，识别并解读期刊档案中犹太形象的建构范式，揭示两次世界大战之间及战后初期，阿拉伯知识分子在政治张力下对犹太身份的协商与阐释。这一跨学科研究方法实现了量化建模与文本细读的结合，精准剖析文化生产机制，呈现这一关键历史节点阿拉伯印刷话语的内在矛盾性。本研究的核心价值在于，对锡安主义兴起与以色列建国这一重塑阿拉伯世界族群关系的关键时期的媒介文本开展数字化研究：随着阿拉伯犹太人大规模撤离埃及，《箴言》中犹太形象的动态演变，折射出社会层面对民族身份、宗教差异与殖民遗产的集体焦虑。全文分为两部分：第一部分将《箴言》置于反殖民与后奥斯曼知识思潮中，阐释其成为阿拉伯现代性多元理念博弈平台的历史背景；第二部分结合远读与阐释性分析，梳理期刊对犹太人的三重身份建构——现代性符号、西方帝国主义受害者、阿拉伯主权威胁者。这些形象建构并非单纯的历史遗存，更深刻影响着当代族群宗教身份与政治归属感的认知。本研究将数字人文工具与知识生产的后殖民批判相结合，为阿拉伯印刷文化、形象表征与媒介史研究提供了全新的方法论与认识论范式。

Abstract：This article investigates the representation of Jews in al-Risālah, a major Egyptian literary magazine (1933–53), by integrating Cultural Analytics and postcolonial theory. Using digital text analysis methods, it identifies and interprets patterns of Jewish representation within al-Risālah’s archive, uncovering how Arab intellectuals negotiated Jewishness amid the political tensions of the interwar and early postwar periods. This interdisciplinary approach enables a nuanced examination of cultural production, bridging quantitative modelling with close textual reading to reveal the ambivalences of Arab print discourse during a pivotal historical moment. The study’s significance lies in its digital examination of media texts published during the rise of Zionism and the establishment of Israel, an era that reshaped intercommunal relations across the Arab world. As Arab Jews began departing Egypt en masse, al-Risālah’s evolving depictions of Jews became symptomatic of broader anxieties over national identity, religious difference, and colonial legacies. Structured in two parts, the first contextualizes al-Risālah within anti-colonial and post-Ottoman intellectual currents, illustrating how the magazine became a platform for competing visions of Arab modernity. The second part synthesizes distant reading with interpretive analysis to assess how al-Risālah conceptualized Jews: as symbols of modernity, victims of Western imperialism, or threats to Arab sovereignty. These portrayals are not merely historical curiosities but inform contemporary understandings of ethno-religious identity and political belonging. By fusing digital humanities tools with a postcolonial critique of knowledge production, this study contributes a new methodological and epistemological model for analysing Arab print culture, representation, and media history.

图：《箴言》杂志核心关键词年度出现频次

Figure.Recurrence of key words in al-Risālah by years.

编译｜洪冰凤

校对｜罗斯鹏

排版｜魏翔

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

“全国语言文字应用研究中青年学者协同创新联盟”第十届学术研讨会 1 号通知

2026年5月2日 08:50

徐惠 2026-05-02 08:50 江西

联盟第十届语言文字研讨会10月在浙传举办，征论文且免会务费。

转载自“语言文字应用研究协同创新联盟”

“全国语言文字应用研究中青年学者协同创新联盟”是以国家语委语言文字应用研究优秀中青年学者研修班学员为基础组成的学术共同体。为加强联盟成员的学术交流和成果共享，促进联盟发展，联盟自2015年开始举办学术研讨会，目前已举办九届，在中青年学者中影响广泛。

为深入学习贯彻党的二十大和二十届历次全会精神，落实《教育强国建设规划纲要（2024—2035年）》精神，服务建设语言能力强国，在国家语言文字事业“十五五”规划开启之年，全国语言文字应用研究中青年学者协同创新联盟成立十周年之际，拟于2026年10月24—25日在浙江传媒学院钱塘校区举行第十届学术研讨会。现将有关事项通知如下：

一、会议主题和议题

（一）会议主题：

“一体两翼”的大语言文字工作格局与智能时代的语言应用研究

（二）分议题：

1. “一体两翼”大语言文字工作格局的理论构建与实践路径

2. 国家语言能力建设助力国家治理和参与全球治理

3. 中华优秀语言文化传承发展体系构建与全民语言文化素养提升

4. 数字中文建设与语言科学发展

5. 语言科技赋能国家关键领域与国家语言服务体系构建

6. 国家通用语言文字普及推广的数字化与场景化探索

7. “浙江宣传”“之江新语”语言表达特色与新时代区域传播

8. 国际中文教育的数智赋能与创新实践

9. 智能时代的专业化、有组织科研与联盟协同创新

10.其他相关研究

二、时间地点

会议时间：2026年10月24日-25日（报到时间：2026年10月23日）

会议地点：浙江传媒学院（浙江·杭州，钱塘区白杨街道学源街998号）

三、主办与承办单位

主办单位：全国语言文字应用研究中青年学者协同创新联盟

承办单位：浙江传媒学院国际教育学院

协办单位：浙江传媒学院文学院、国际文化传播学院、播音主持艺术学院

四、论文提交

诚挚欢迎学界专家学者莅会。会议回执和摘要提交截止日期为2026年8月20日。请参会老师将回执和摘要发送至会务组邮箱 ywlmhy2026@cuz.edu.cn，邮件标题请注明“联盟会议+姓名+议题方向”。

优秀论文将推荐在相关核心期刊、专业期刊上发表。

五、其他事项

1. 本次会议不收会务费，参会人员的住宿费、交通费等均由本人所在单位或个人自理。

2. 会议将统一安排会场、研讨交流等相关事宜，具体会议指南将于会前1个月发送至参会人员邮箱。

六、联系方式

联系人：刘老师

联系电话：18757567570（微信同号）

联系邮箱：ywlmhy2026@cuz.edu.cn

附件：联盟第十届学术研讨会回执.docx

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

超常布局新专业立足国家发展“大逻辑” | 文末精彩！

2026年5月2日 08:50

徐惠 2026-05-02 08:50 江西

2026 本科专业目录发布，新增交叉学科门类，高校专业调整力度空前，服务国家战略与区域发展。

转载自“汉语堂”

中青报·中青网记者张渺杨洁来源：中国青年报（2026-04-29 02版）

4月28日，《普通高等学校本科专业目录（2026年）》发布。2026年本科专业目录在“交叉学科”门类中首批列入未来机器人、交叉工程等11种目录内已有专业。目前，本科专业目录共涵盖13个门类、92个专业类、883种专业，目录体系更加科学完善。“十四五”期间，全国高校新增本科专业布点1.02万个、撤销或停招1.22万个。专业调整幅度持续增大，累计调整比例超30%，今年全国高校专业调整比例首次突破10%,调整力度和规模之大前所未有。

从自我发展“小逻辑”到服务国家发展“大逻辑”

“服务国家战略需求，提升高等教育对强国建设的贡献力。着力推动高校学科专业建设从自我发展‘小逻辑’，到服务国家发展‘大逻辑’的转变。”教育部高等教育司相关负责人介绍，近两年，教育部已先后超常布局了低空技术与工程、具身智能等专业。对于中央最新部署、高度关注的战略领域，教育部专门开辟了即时响应的“绿色通道”，指导有条件、有基础的高校积极论证。

《中共中央关于进一步全面深化改革、推进中国式现代化的决定》提到“建立科技发展、国家战略需求牵引的学科设置调整机制和人才培养模式，超常布局急需学科专业”。2025年，中央教育工作领导小组印发《高等教育学科专业设置调整优化行动方案（2025-2027年）》，强调实施急需学科专业超常布局行动，瞄准战略性新兴产业和未来产业等，快速布局一批学科专业点。

此前，北京航空航天大学、北京邮电大学等6所高校增设“低空技术与工程”新专业。

据西安交通大学党委常委、副校长严俊杰介绍，学校去年就已经快速响应国家号召，规划创办了全国首批具身智能专业；整合了机械和自动化等优势学科，围绕智能机器人、脑机接口等方向构建课程体系，培养具身智能前沿领域复合型拔尖创新人才；创办了全国首个储能科学与工程专业，深度整合控制、动力、电气、材料等八大优势学科。

山东大学党委常委、副校长曹现强则表示，山东大学目前已增设22个战略性新兴专业，其中文科领域增设国际组织与全球治理、国际新闻与传播、供应链管理等战略性新兴专业。

在服务人民生命健康方面，近年来，本科专业目录增设健康服务与管理、养老服务管理等专业；在服务生态文明建设和乡村振兴方面，增设生态修复学、乡村治理等专业；在服务中华优秀传统文化传承创新方面，增设古文字学、非物质文化遗产保护等专业。

让办在大学里的专业，长在当地的产业链上

超常规布局不仅体现在前沿科技和文科领域，也深入结合地方特色与战略需求。安徽大学原党委书记、安徽大学高等教育研究所所长蔡敬民说：“现在，我们深刻认识到，地方大学的发展逻辑，必须从传统的‘学科逻辑’转向‘强国逻辑’，必须与经济社会发展深度融合，坚定转向‘区域需要什么我们就培养什么’。”

在这一理念指引下，安徽大学先后撤销税收学、广告学、建筑学等15个传统专业，同时，前瞻性布局低空技术与工程、人工智能、新能源汽车工程等13个新工科专业。经过调整，安徽大学92个在招本科专业中，近80%直接服务安徽省十大新兴产业。2025届毕业生中，近70%服务安徽十大新兴产业，超60%留皖就业，超60%入职当地头部企业。

《教育强国建设规划纲要（2024-2035年）》明确提到，到2027年，“教育布局结构与经济社会和人口高质量发展需求更加契合”。围绕一系列文件要求，不少地方高校正在着力调整专业布局。

据重庆市教育委员会副主任蒋云芳介绍，2025年，重庆市教委联合多个市级部门，发布了88个国家战略和区域发展紧缺急需专业清单，“有效引导了重庆大学、西南大学、重庆交通大学等高校增设低空技术与工程、量子信息科学、气象技术与工程等紧缺专业点”。

她提到，重庆大学牵头组建“先进材料专业群”和“新能源与储能专业群”，联合重庆高校及30余家储能领域头部企业，共建课程资源与实习基地。

黑龙江省教育厅副厅长程爽也分享了该省“优化高校专业布局、服务区域发展”的探索与实践。她介绍，黑龙江省支持高校培育交叉复合型新专业：“哈尔滨工业大学聚焦空天科技前沿，新增了‘具身智能’‘脑机科学与技术’等一批本科专业；围绕把‘冷资源’变成‘热经济’，支持哈尔滨体育学院联合哈尔滨音乐学院，在全国率先增设‘冰雪舞蹈表演’专业。”

目前，黑龙江省已经组建了40个区域产教融合特色优势专业集群，“专业不能悬在半空，得扎进黑土地、连上生产线、接住老百姓的期盼。”程爽强调。

培育交叉融合的新兴专业

去年，教育部高等教育司关于开展2025年度普通高等学校本科专业设置工作的通知中就提到，“深化新工科、新医科、新农科、新文科建设，推动课程体系与教学内容重塑，对现有专业升级改造，培育交叉融合的新兴专业，打造特色优势专业集群”。

如今，这一思路在《普通高等学校本科专业目录（2026年）》文件中也有明显体现。2026年本科专业目录在“交叉学科”门类中首批列入未来机器人、交叉工程等11种目录内已有专业和具身智能、脑机科学与技术等4种本次列入目录的新专业。

今年，清华大学增设了心理、脑与认知科学专业。清华大学基础科学讲席教授、心理与认知科学系主任刘嘉介绍，该专业以理解人、理解脑、理解智能为主线，建设跨学科培养平台，“专业不再完全沿用单一学科的线性排布方式，而是以问题和能力为导向进行模块化重构”。

在课程设计上，该专业将设置心智、脑科学、计算智能、交叉融合四大课组，重点训练实验设计、数据分析、计算建模、工程实现和科学表达等能力。

记者发现，《普通高等学校本科专业目录（2026年）》中出现了不少极具融合特色的“新文科”专业。

“为提升国家语言能力，服务数字中国建设和新文科建设，今年增设‘语言科学’专业。”北京语言大学语言科学与资源学院院长曹文提到，目前北京语言大学是该专业在全国唯一获批、即将招生的高校。

曹文介绍，增设“语言科学”专业的学科基础将融合语言学、认知科学、数据科学与人工智能，培养既能掌握语言学基础知识和基本技能，又能运用合规的人工智能，具有较强的跨学科探索能力、行业应用能力、资源管理能力和数据伦理意识的高水平、复合型的新质语言人才。

那么关于语言科学，你还想知道什么？中国青年报/中青网杨洁记者就此采访了北京语言大学语言科学与资源学院院长曹文教授。汉语堂为你带来曹文教授的新鲜解读！

1.文科专业的改革发展一直受到社会关注，语言科学专业如何实现交叉培养，在师资、课程等方面有哪些特色？

答：为提升国家语言能力，服务数字中国建设和新文科建设，国家教育部于今年在“中国语言文学”大类下增设“语言科学”专业，其内在具备交叉学科的性质。该专业属于特设（T）国家控制布点（K）专业。目前北京语言大学是该专业在全国唯一获批、即将招生的高校。其学科基础包括：语言学、认知科学、数据科学与人工智能。该专业的总体目标是培养既能掌握语言学基础知识和基本技能，又能运用合规的人工智能，具有较强的跨学科探索能力、行业应用能力、资源管理能力和数据伦理意识的高水平复合型的新质语言人才。

本专业在北语由语言科学与资源学院（语言科学研究院）主建。学院全面实行导师制，采用本、硕、博一体培养体系。师资力量雄厚，目前20多位教授皆为语言学及上述相关学科领域的知名学者，学殖深厚，成果丰硕；其中，长江学者、百千万人才、新世纪人才或二、三级教授占1/2强。此外，学院内的6个省部级共建基地和2个高水平实验室以及语言调查系列课程，可为学生知行合一的成长过程提供独有的平台和机会。

2.语言科学专业的毕业生将为哪些领域输送专业人才？

答：该专业的毕业生可直接在语言智能、语言数据、语言服务、语言安全、语言健康、语言评价与鉴定、语言资源调查与保护等领域就业。若有意深造、进一步考取相关专业研究生，他们也将具备很强的竞争力。

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

第四届语料库与数字人文暑期学院（1号通知）

2026年5月1日 00:00

徐惠俊阳 2026-05-01 00:00 江苏

心心念念的暑校来啦，线上线下免费学习！

第四届语料库与

数字人文暑期学院

— 1号通知 —

CDHSUMMER2026

随着大数据与大语言模型技术的飞速发展，语言学、文学、历史学、文献学等人文社科研究，正与计算技术形成深度交叉融合。人文学科的创新发展，核心在于基于语料库的人文大数据体系构建、语言智能技术的落地应用，以及面向人文研究的大模型适配与开发。为推动计算语言学与数字人文领域的学科建设、复合型人才培养与学术交流，南京师范大学联合北师港浸大、澳门大学、香港科技大学、南京农业大学五校，正式启动第四届语料库与数字人文暑期学院的报名工作。

主办信息

举办时间

2026年7月25日- 8月4日（全程12天，7月25日报到）

线下地点

南京师范大学随园校区文学院

课程形式

线上线下同步开展，课程免费，交通食宿自理

招生规模

应学员需求，今年进一步扩大暑院规模

线下120人，线上80-120人，总计不超过240人

核心模块

数字人文理论、技术、语料库及标准、计量四大模块全覆盖

核心课程体系

平行讲习班

（3个平行班，学员仅可择一申请）

每门课程8次系统授课，配4名专属助教，每班线下40人、线上40人。

A班. 数据库编程讲习班主讲：李斌

以 MySQL+PHP 为核心平台，围绕《全唐诗》等语料，讲授语料库构建、数据库查询、交互式网站搭建等核心技术，面向零基础编程初学者。

B班. 语言统计方法讲习班主讲：沈威

聚焦语料库计量分析，系统讲授基于SPSS的统计基础、参数检验、非参数检验、聚类分析、相关分析、卡方检验、多元线性回归及逻辑回归等核心方法，帮助学员掌握语言研究中的定量分析技能与统计报告生成能力。

C班. Python大模型编程讲习班主讲：王东波刘浏

以古籍大模型「荀子」为案例，讲授提示词工程、指令微调、Agent开发、人文场景落地等内容，面向有基础Python能力的学员。

注：所有班次均不接受计算机相关专业背景学员申请

配套学术与实践环节

1. 专家系列讲座：拟邀请20位领域顶尖学者，开设20场精品学术讲座，聚焦前沿进展与核心方法。

2. 主题圆桌论坛：2场专题Panel，围绕「LLM 时代人文学科的机遇与挑战」「语言学与数字人文的未来发展」展开深度对话。

文化考察与研讨：依托南京及周边历史文化资源，规划数字人文考察路线，同步设置分组学术研讨环节。

报名须知

招生对象

全国高校及科研院所数字人文、计算语言学、中国语言文学、历史学、文献学等文史哲相关专业的本科生、研究生、青年教师及科研人员。

报名时间

2026年5月5日至12日（北京时间）

报名方式

填写官方报名表单，上传个人简历、研究基础、学习目标（计划）、推荐信等材料，主办方将择优录取。录取结果将于2026年6月1日前通过邮件及公众号推送，录取学员需签署上课承诺书，报名成功后原则上不得中途退课、更换班级。

结课考核

以独立人文研究成果为核心考核目标：

1. 数据库编程班：独立构建人文数据库与交互式检索网站

2. 语言统计班：完成语料库人文研究计量分析报告

3. 大模型编程班：完成人文场景大模型应用开发

完成课程并通过考核的学员，将颁发暑期学院结业证书，优秀成果授予优秀学员证书。

课程日程

注：详细讲座日程、嘉宾信息、考察安排将在2号通知中发布，开课前1周推送至学员官方群

特邀讲座和论坛嘉宾

（排名不分先后）

新疆大学冯志伟教授

澳门大学袁毓林教授

香港理工大学黄居仁教授

中国社科院民族所龙从军研究员

中国社科院语言所张永伟研究员

北京大学苏祺研究员

华中科技大学唐旭日教授

同济大学王昊奋教授

南京大学黄书剑教授

南京农业大学王东波教授

南京师范大学李斌教授

北京师范大学胡韧奋副教授

中国人民大学卢达威副教授

北京语言大学饶高琦副研究员

华中师范大学沈威副教授

中国传媒大学王璐璐副教授

江南大学王萌副教授

（持续邀约中）

组织架构

（以下各项排名不分先后）

主办单位

南京师范大学文学院

联合主办单位

澳门大学人文学院

香港科技大学人文学部

北师香港浸会大学人文社科学院

南京农业大学信息管理学院

特约支持单位

中国社科院民族所民族语言文化行为实验室

协办组织/单位

中国民族语言学会语言资源与计算人文专委会

中国古籍保护协会古籍智能开发与利用专委会

中国人工智能学会语言智能专委会

江苏省人工智能学会自然语言处理专委会

江苏省修辞学会

数字人文专业发展联盟

浙江大学文学院

媒体与出版支持

科学出版社

高等教育出版社

中华书局古联公司

外语教学与研究出版社

南京大学出版社

南京师范大学出版社

往届回顾

语料库与数字人文暑期学院自2024年创办以来，已成功举办三届，累计吸引全球数十个国家和地区、数百所高校的数千名师生报名参与，培养了近四百名兼具人文素养与技术能力的复合型人才，成为国内计算语言学与数字人文领域极具影响力的暑期教学与交流品牌。 2024年1月，首届寒假讲习班在南京师范大学顺利举办。讲习班一经开放报名便受到学界广泛关注，共有200余位学员报名，最终择优录取线上学员70名。经过十天的系统学习，学员自主开发40余个可用的人文数据库检索平台并完成线上展示，60余名学员顺利获得优秀或合格结业证书，多位领域专家全程参与点评指导，为学员的成果优化与学术发展提供了专业建议。

2024年8月，第二届暑期学院在澳门大学人文学院成功举办。本届暑期学院吸引了来自全球20个国家及地区、371所高等院校的956名师生报名，最终录取线上及线下学员110名。经过8天的系统学习，学员完成95个自建人文数据库与应用成果，研究领域覆盖文、史、哲、法律、社会学、医药等多个学科。

2025年7月，第三届暑期学院在北京师范大学-香港浸会大学联合国际学院顺利举办。本届暑期学院首次设置数据库编程、大模型开发双平行班，累计吸引全国180余所高校的近千名师生报名，最终录取线上线下学员160名。课程期间邀请12位领域顶尖学者开设专题讲座，学员完成120余项人文数据库与大模型应用成果，其中多项成果落地为实际科研项目，进一步夯实了暑期学院的教学体系与学术影响力。

报名渠道

1. 公众号：比特人文

2. 咨询邮箱：dhbase2026@126.com

3. 2026年5月5日正式开启报名，敬请关注！

欢迎全国各高校及科研院所对语料库、语言智能、数字人文、计算技术人文应用感兴趣的师生踊跃报名！请提前准备好各项申请材料！

扫码关注公众号，

获取报名通道、课程更新、嘉宾资讯等更多内容

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

“语言的力量语言科技+”2026年国家关键领域语言科技赋能交流会在沪举行

2026年5月1日 00:00

徐惠 2026-05-01 00:00 江苏

4月19日沪上举办语言科技赋能交流会，成立联盟并揭牌研究中心。

转载自“语言资源高精尖创新中心”

4月19日下午，“语言的力量语言科技+”2026年国家关键领域语言科技赋能交流会在长三角生态绿色一体化发展示范区“水乡客厅·方厅水院”上海厅举行。教育部语言文字信息管理司司长刘培俊出席并讲话。上海市教育委员会副主任、上海市语言文字工作委员会秘书长杨振峰，上海市青浦区人民政府副区长张彦致辞。

如何看待今天的语言科技？如何用好语言科技赋能千行百业？如何加强长三角地区语言科技合作？与会者聚焦这三个问题展开深入交流，并达成共识：从文字的温润到算法的精密，从文化的传承到技术的突破——这正是语言文字工作“以文化人、以语强国”的双重使命。

在“硅基文明”发展新阶段，语言与人工智能、大数据等技术深度融合，正从文化“软实力”转化为发展“硬支撑”。同时，语言科技应用需坚守向善导向，一方面要深耕自主创新，攻坚语料库、语言大模型、跨语言交互等关键技术；另一方面要拓宽应用边界，推动技术走出实验室，融入教育发展、产业经济、民生服务、社会治理等各领域。此外，还要直面挑战，强化资源建设、产学研用协同，健全行业生态，依托教育体系培育专业人才，夯实产业发展人才根基。

与会者在交流中深刻认识到：要树立大语言观念认知，用好大语言模型技术，构建大语言服务体系，推动语言数据资源向经济社会效能转变。同时，长三角地区作为我国经济发展最活跃、开放程度最高、创新能力最强的区域之一，在语言科技赋能方面应发挥示范引领作用。面向未来，要健全“政府协同搭台—高校科研引领—企业承接转化”新机制，聚焦语言科技赋能国家关键领域设立一批创新项目，储备一批前沿成果，推广一批应用案例，推动语言资源与数据要素深度融合，夯实数字底座；推动技术研发与产业应用深度融合，畅通转化渠道；推动区域协同与安全保障深度融合，优化治理生态，推动语言科技聚焦高价值领域，全局赋能经济社会发展，以语言的行动和行动的语言服务教育强国、科技强国、人才强国和文化强国建设，贡献语言科技的时代力量。

本次交流会聚焦国家关键领域语言科技赋能，汇聚高校、企业、研究机构的智慧力量，科大讯飞、嘉兴大学、江苏师范大学、上海人工智能实验室、北京语言大学、上海库帕思科技、北京师范大学、深圳鹏城国家实验室数据智能研究所、广西民族大学相思湖学院、西北农林科技大学等单位代表，分享了各自的前沿成果、积极共商协同机制，展示了语言科技在关键领域的创新实践与示范价值。

现场照片

现场，“长三角地区国家关键领域语言科技赋能联盟”宣布成立，其将协同三省一市的政府、高校、企业和专家学者等主体，在协调政策、培育市场、开展活动、交流展示上下功夫，努力为推动语言科技自身发展和更好赋能国家的关键领域建设发挥好桥梁纽带作用。

东华大学“国家关键领域语言科技赋能研究中心”同步揭牌，中心对接国家语委语言科技赋能领航计划，推动语言科技与人工智能大模型深度融入教育教学、产业升级、文化传承等国家关键领域，发挥学校学科交叉优势，服务国家战略。

文章来源：“东方教育时报”公众号

题图来源：MAKA设计、百度文库

本文转自：“语宝”公众号

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

评测竞赛 | 第二届中文叙实性推理评测(FIE2026）

2026年4月30日 00:01

FIE2026 2026-04-30 00:01 江苏

FIE2026 设双赛道，测大模型中文叙实性推理，按赛程报名提交报告评奖。

(FIE2026)

第二届中文叙实性

推理评测

01、测评赛程（暂定）

2026年3—4月：评测任务发布（已完成）&参赛队伍报名（正在进行）；
2026年4月1日前：发布第一批样例集（已完成）；
2026年5月1日前：发布第二批样例集；
2026年5月：发布正式评测集（在发布7天内开放下载）；各参赛队伍在7天内开展评测；
2026年6月：参赛队伍提交任务技术报告论文，用于审稿。
2026年7月：评测论文审稿；发放录用通知；
2026年8月：评测论文Camera-ready版提交；
2026年9月：评测论文纠错排版；提交ACL/CCL Anthology收录（待定）；
2026年10月：CCL 2026技术评测研讨会召开。

02、报名流程

请下载并仔细阅读《第二届中文叙实性推理评测FIE2026参赛协议》（下称《参赛协议》）。如出现PDF无法显示的情况，请更换浏览器，建议使用Chrome浏览器。
请队长在《参赛协议》的“参赛队伍声明”一栏中填写队伍名称，并签署名字和日期，将签署好的《参赛协议》，以邮件附件形式发送至联系人邮箱tianqi.xun@connect.um.edu.mo。
在报名邮件正文中，请按以下表格形式填写队伍信息（示例如下）：

邮件标题以“FIE2026报名+单位+队伍联系人”的格式书写。例如：“FIE2026报名－澳门大学－丛冠良”。

报名注意事项：

队长不能作为队员参与其他队伍。
队伍成员人数不限。
队伍名称在评测开始前可修改，并且只用于评测过程中的队伍区分，不用于论文写作。
队伍联系人主要负责与组织方的邮件沟通，评测过程中不建议更换。
单位信息在评测结束前可修改，最终将用于成绩榜单以及评测综述论文中。
计划参加的赛道在评测结束前均可修改。
如目前所在单位尚未确定，可以“个人”身份参赛。
为维护评测活动的公平性，所有参赛者不得以组织方所在单位成员的名义参赛。
组织方正在计划开设一个leaderboard网站，网站上线后将承接报名和结果提交等功能。

03、组织方团队

任务组织者：袁毓林教授（澳门大学）、李斌教授（南京师范大学）。
任务联系人：丛冠良（澳门大学博士生，guanliang.cong@connect.um.edu.mo）、寻天琦（澳门大学博士生，tianqi.xun@connect.um.edu.mo）。

04、任务简介

叙实性推理（Factivity Inference, FI）是一种与事件真实性判断有关的语义理解任务，主要涉及语言使用中事实性信息的表达。在人类的会话交际中，叙实性推理能力表现为语言使用者可以从某些动词性语言成分（如“相信”“谎称”“意识到”等）的使用推知其他语言成分所描述的相关事件的真实性（真还是假）。例如：

（1）他们意识到局面已经不可挽回。

（2）他们没有意识到局面已经不可挽回。

从例1这样的肯定句和例2这样的否定句上，都可以推理出在说话人眼中存在这样一个事实：“局面已经不可挽回”。

进行叙实性推理所使用的知识是一种受世界知识（world knowledge）影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识（analytical knowledge of language）。比如，上面例句中的动词“意识到”要求（预设）它的宾语“局面已经不可挽回”的所指为真，不管该动词前面有没有否定性词语。

与叙实性推理类似的还有反事实推理（Counter-Factual Inference, CFI），这是语义理解中与事件真实性判断有关的两种推理形式，可统称为“真实性推理”（Factuality Inference, FactI）。相较而言，叙实性推理主要依靠谓词（predicates, 如动词）来表达而反事实推理则主要依靠反事实条件句（counter-factual conditionals）来表达。例如：

（3）约翰不知道罗昆是中国人。

（4）要不是消防队来得及时，大火就要烧到顶楼了。

从例3中“知道”这个动词的使用，可以推理出这样一个事实：“罗昆是中国人”；从例4这个反事实条件句中，可以推理出两个事实：“消防队确实来得很及时”和“大火确实没有烧到顶楼”。

作为语言推理的一种重要的导航机制和手段，真实性推理具有明确的语言形式方面的线索，是机器进行文本蕴涵识别（textual entailment recognizing）、幻觉处理（hallucination solving）、信念修正（belief revision）等任务的重要的语义基础和形式依据，同时对信息检索、信息抽取、问题回答、情感分析等下游任务都具有重要的价值。目前，大型语言模型（Large Language Models, LLMs）日益具备类人的与外界自主交互的能力，也被称为“智能体”（agent）。从话语中获取事实性信息及说话人对事件真实性判断的主观态度，这对于智能体的自主推理和人机交互的顺畅性而言是极为关键的。

为进一步提升大型语言模型对中文的语义理解能力，实现机器对人类交际话语的深度理解，我们将在FIE2025（任务网站；综述论文；已录用论文）的基础上继续推出“第二届中文叙实性推理评测任务”(FIE2026)。

本次评测将着重考察大模型在不同真实语境中的叙实性推理表现有何差异。特别是：当叙实性结构中存在不同的否定词、不同的否定意愿、不同的评价性状语、不同人称和数量类型的主语，以及存在多声性标记和被动化标记等复杂语境条件下，模型的叙实性推理表现如何。例如：

（5）他错误地认为地球是平的。

（6）没有证据表明抽烟可以防止病毒感染。

（7）我不能相信他竟是一个八十多岁的老人。

（8）我不能相信人可以长生不老。

从例5中，可以推理出“地球是平的”肯定为假；从例6中可以推理出“抽烟可以防止病毒感染”大概为假；从例7可以推出“他是一个八十多岁的老人”大概为真；而从例8可以推出“人可以长生不老”大概为假。

参赛队伍需要利用组织方发布的数据集自行设计提示词（prompt），在获取LLMs的回答后整理为统一的输出格式。每条数据以一个文本蕴含关系句对<Aa, a>的形式呈现，数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况，并给出对该判断的置信度。例如：

主蕴含句Aa：老张并没有注意到她今天穿了一件红色的连衣裙。

被蕴含句a：她今天穿了一件红色的连衣裙。

模型判断：有95%的把握说被蕴含句为真。

输出答案：{ "factivity" : "TRUE" , "confidence" : 0.95 }。

此外，本届评测将继续设置提示词赛道（Prompt Track）和微调赛道（Fine-Tuning Track）两种评测路线。提示词赛道不允许对模型参数做任何修改，只允许通过提示词工程提升模型表现；微调赛道则可以选择开源模型作为被试模型，并允许利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

注意：无论参加提示词赛道还是微调赛道，用于获取单一数据的回答而向大模型提供的样例（shot）数量不能超过3条（3-shot at most）。

05、评测数据

数据规模与来源

本次评测以JSON格式提供样例集和评测集。样例集数据量约在500-1000条，评测集数量约在2000—4000条。语料由组织方团队筛选自相关真实语料库，并进行改编、标注与校对。

由于评测对象为大型语言模型，故而不提供训练集和验证集，选择参加微调赛道的队伍可将样例集数据用于模型微调训练，并自行从中划分出验证集。

数据字段

id：数据编号。编号格式采用“赛道代码_数据编号”的策略。其中，赛道代码pr表示该数据用于提示词赛道评测，赛道代码ft表示该数据用于微调赛道评测。样例集数据以sp_XXX的格式编码。
text：背景句，即主蕴含句。此字段提供叙实性推理所需的语境，模型需要以此为依据来判断结论句的真值情况。
hypothesis：结论句，即被蕴含句。此字段提供叙实性推理所需的鉴别式，模型需要以背景句的内容来判断此句的真值情况。
factivity：叙实性判定。将模型对结论句真值情况的判断结果写入此字段。字段值包括"TRUE", "FALSE"和"UNCERTAIN"三种选项。
confidence：对叙实性判定的置信度，即在text的条件下认为hypothesis在多大程度上为真或为假。当factivity字段值为"TRUE"或"FALSE"时，confidence字段取值范围为(0.50, 1.00]（左开右闭）；当factivity字段值为"UNCERTAIN"时，confidence字段值固定取0.50。
样例集数据包含以上五个字段；测试集数据只包含id、text和hypothesis字段。

数据样例

更多数据样例请见样例集。

任务描述

组织方向参赛队伍提供样例集和评测集。评测集数据以一个文本蕴含关系句对<Aa, a>的形式呈现。所有数据均以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况，并给出对该判断的置信度。例如：

主蕴含句 Aa：老张并没有注意到她今天穿了一件红色的连衣裙。

被蕴含句 a：她今天穿了一件红色的连衣裙。

模型判断：有95%的把握判定被蕴含句为真。

输出答案（JSON字段）：{"factivity": "TRUE", "confidence": 0.95}。

参赛队伍需要自行选定若干大型语言模型（型号与参数量不限）；利用组织方发布的数据集自行设计提示词（prompt），并逐条发送给被试模型；要求模型以text字段值为依据来判断hypothesis字段值的真值情况，记录模型的返回结果；最终将结果整理为JSON格式的数据文件。
真值情况包括三种：

如果模型认为，根据背景句的内容，结论句为真，则在factivity字段中写"TRUE"；同时在confidence字段中写入模型对该判定的置信度（即模型认为结论句在多大程度上为真），置信度的取值范围为(0.5, 1]，字段值类型为数字（数值保留到小数点后两位）；
如果模型认为，根据背景句的内容，结论句为假，则在factivity字段中写入"FALSE"；同时在confidence字段中写入模型对该判定的置信度（即模型认为结论句在多大程度上为假），置信度的取值范围为(0.5, 1]，字段值类型为数字（数值保留到小数点后两位）；
如果模型认为，根据背景句的内容，不能判断结论句的真假，则在factivity字段中写入"UNCERTAIN"；同时在confidence字段中写入0.5，字段值类型为数字。

若模型拒绝回答，请调整提示词，重新测试。
若遇到其他问题，请邮件联系任务负责人。
参赛队伍使用的所有资源需要在最终提交的技术报告中给予详细说明。实验中的所有代码与结果请妥善保存，以备查用。

数据使用说明与描述

参赛队伍需要参考数据内容自行设计与大模型对话时的提示词，因此在数据中未设置question字段。
提示词中必须同时包含当前数据中text和hypothesis字段的内容。
提示词的设计可以进行多样化尝试，如提供更多数量的shots、要求使用CoT、要求进行一致性投票、告知动词类型、告知动词的叙实性类型、变换提问句式等等。可参考FIE2025的评测论文。

输出要求

禁止对模型回答进行人工修正。
允许使用代码对模型回答进行统一提取，但设计代码时需要注意可复现性。同时，如果模型回答中出现真假判断前后不一致的情况，不可以只提取其中一种判断，而需要重新调整提示词。
提交文件的要求请见提交文件说明。

06、赛道设置

本届评测将继续设置提示词赛道（Prompt Track）和微调赛道（Fine-Tuning Track）两种评测路线。提示词赛道不允许对模型参数做任何修改，只允许通过提示词工程提升模型表现；微调赛道则可以选择开源模型作为被试模型，并允许利用样例集数据对模型参数进行微调。

两个赛道将分开评奖，参赛队伍既可以同时选择参加两个方向的测试，也可以只选择参加其中一个方向的测试。无论选择哪个测试方向，整个测试过程均需在评测报告中作详细说明。

无论微调赛道还是不微调赛道，prompt中最多允许出现3个回答样例（3-shot at most）。

07、评价标准

叙实性判定结果的分类

认知主体的叙实性推理能力主要体现在其对相关事件真值情况的判断上。本次评测采用 [真值类别 + 置信度] 的"双参数"模式来表示事件的真值情况。

真值类别（factivity）：定类变量，表示认知主体对事件真假的基本判断，取值为 "TRUE"、"FALSE" 或 "UNCERTAIN"，分别表示：根据 text 字段的内容，可推知 hypothesis 字段的内容为真、为假，或真假不能确定。

置信度（confidence）：定距变量，表示认知主体对上述判断的自信程度。当 factivity 为 "UNCERTAIN" 时，confidence 固定取 0.5；当 factivity 为 "TRUE" 或 "FALSE" 时，confidence 取值范围为 (0.5, 1]（左开右闭）。

根据上述双参数的取值组合，评测系统将每条数据的回答映射到以下九个叙实性强度区间之一：

评分方式（暂定）

为了更准确地评估大模型的叙实性推理能力，本次评测采用梯度匹配的方式计分，即：模型回答与标准回答所落入的得分区间越接近，得分越高。具体规则如下：

若模型回答与标准回答落入同一区间，得 1 分；
若模型回答所在区间与标准回答所在区间相邻，得 σ 分（σ ≈ 0.6827）；
若模型回答所在区间与标准回答所在区间不相邻，得 0 分。

各区间之间的完整得分关系见下方得分矩阵（行(row)为参赛队提供的模型回答，列(column)为专家标注的标准回答）：

参赛队伍的最终得分为其在所有评测数据上所得分数的加权总和（加权系数根据各类型题目的数量确定）。

08、技术报告要求

参与评测必须提交技术报告，不提交技术报告的队伍成绩将不会获得认可。报告要求如下：

报告可由中文或英文撰写。
报告统一使用CCL 2026的论文模板。
报告正文不得超过6页，参考文献页数不限。
报告应至少包含以下四个部分：模型介绍、评测结果、结果分析与讨论和参考文献。
会议投稿需统一使用LaTeX模板。
由于本次会议采用双盲审稿，作者姓名和单位不能出现在投稿的论文中。因此，作者的自引不可采用“我们提出”的方式，而是用“作者名字提出…”。
不符合这些要求的论文将不经过完整的审稿流程而直接被拒稿。
论文模板下载链接：（待更新）。

09、任务奖项

本届评测将为不微调赛道和微调赛道的优胜者分别颁发一、二、三等奖，奖金数额待定。

每个赛道奖项设置如下：一等奖0-1名；二等奖0-2名；三等奖0-3名。

Factivity Inference Evaluation 2026 (FIE2026)

任务网站：

https://github.com/UM-FAH-Yuan/FIE2026

⬆扫描上方程序码即可查阅本文超链接内容

（蓝色划线部分）

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

中国计算语言学大会（CCL26-Eval）技术评测任务启动，欢迎报名参赛！

2026年4月30日 00:01

CCL26-Eval 2026-04-30 00:01 江苏

CCL26-Eval启动，14项评测覆盖NLP多领域，10月宜昌办会。

转载自“CIPS计算语言学专委会”

第二十五届中国计算语言学大会（CCL26-Eval）技术评测任务启动，欢迎报名参赛！

第二十五届中国计算语言学大会（The 25th China National Conference on Computational Linguistics, CCL 2026）将于2026年10月15至18日在湖北省宜昌市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议，是中国最大的自然语言处理学者和专家的社区。经过三十年的发展，CCL被广泛认为是最权威的，全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展，CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。

会议网站：http://cips-cl.org/static/CCL2026/index.html

本次大会继续组织中文语言处理技术评测CCL26-Eval。经过前期评测任务征集，CCL26-Eval组织委员会已确定14个评测任务，涵盖语义分析、篇章、语用分析，跨语言、小语种、低资源自然语言处理，知识图谱，自然语言处理与医疗、教育、人文、司法等领域结合应用，生成式AI与大模型核心能力等研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名，由中国中文信息学会颁发官方荣誉证书。评测的总结论文和优秀技术报告将被CCL Anthology和ACL Anthology收录。

评测主席：

林鸿飞（大连理工大学，hflin@dlut.edu.cn）

谭红叶（山西大学，tanhongye@sxu.edu.cn）

杨亮（大连理工大学，liang@dlut.edu.cn）

CCL26-Eval评测任务分类汇总

一、自然语言处理基础任务

1. 语义分析 / 篇章、语用分析

任务1：第二届中文叙实性推理评测

任务简介

叙实性推理（Factivity Inference,FI）是一种跟事件真实性判断有关的语义理解任务，是真实性推理（Factuality Inference,FactI）的一种形式。在人类的会话交际中，叙实性推理能力主要表现为语言使用者可以从某些动词性语言成分（如“相信”“谎称”“意识到”等）的使用获取说话人和句子主语的心理状态，并据此推定相关事件的真实性（真还是假）。例如，从肯定句“他们意识到局面已经不可挽回”和相应的否定句“他们没有意识到局面已经不可挽回”上，都可以推理出在说话人眼中存在这样一个事实：“局面已经不可挽回”。进行此类推理所使用的知识是一种受世界知识（world knowledge）影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识（analytical knowledge of language）。比如，上面例句中的动词“意识到”要求（预设）它的宾语“局面已经不可挽回”的所指大概率为真，不管该动词前面有没有否定性词语。

为进一步提升大型语言模型对中文的语义理解能力，实现机器对人类交际话语的深度理解，我们将在FIE2025的基础上继续推出“第二届中文叙实性推理评测任务”。本届评测任务将着重考察大型语言模型在复杂语境条件和少样本提示下的叙实性推理表现。

相较FIE2025，本次评测将着重考察大模型在不同真实语境中的叙实性推理表现有何差异。特别是：当叙实性结构中存在不同的否定词、不同的否定意愿、不同的评价性状语、不同人称和数量类型的主语，以及存在多声性标记和被动化标记等复杂语境条件下，模型的叙实性推理表现如何。例如：从“我不能相信他竟是一个八十多岁的老人”，可以推出“他是一个八十多岁的老人”大概率为真；而从“我不能相信人可以长生不老”，可以推出“人可以长生不老”大概率为假。

任务描述

参赛队伍需要利用组织方发布的样例集与评测集自行设计提示词（prompt），在获取LLMs的回答后整理为统一的输出格式。每条评测集数据以一个文本蕴含关系句对<Aa,a>的形式呈现，数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况，并给出对该判断的置信度。例如：
*主蕴含句Aa：老张并没有注意到她今天穿了一件红色的连衣裙。
*被蕴含句a：她今天穿了一件红色的连衣裙。
*模型判断：有95%的把握判定被蕴含句为真。
*输出答案（JSON）：{"factivity":"TRUE","confidence":0.95}。

此外，本届评测将继续设置不微调（non-finetuning）和微调（finetuning）两条赛道。不微调赛道不允许对模型本身做任何修改；微调赛道可以利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

组织者和联系人

任务组织者：袁毓林（澳门大学教授）、李斌（南京师范大学教授）
任务联系人：丛冠良（澳门大学博士生，guanliang.cong@connect.um.edu.mo）；寻天琦（澳门大学博士生，tianqi.xun@connect.um.edu.mo）。

任务奖项

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖，奖项按总得分从高到低颁发。其中，一等奖0-1名，二等奖0-2名，三等奖0-3名。各奖项奖金待定。

任务网址

https://github.com/UM-FAH-Yuan/FIE2026

任务2：非字面义翻译和理解评测

任务简介

评测面向谚语、成语、习语、俚语、典故等非字面表达的中英翻译与识别，重点考察模型对非字面意义的理解、跨语言文化映射能力以及语用效果保持能力。任务构建了“生成+判别”互补评测框架，用于检验模型的非字面义表达生成能力和标准非字面义辨识能力。评测数据共5000条高质量样本，涵盖Gold（英文文化背景下的等值表达）和Silver（核心意义翻译）两类参考。本次评测包括两个子任务。

子任务1：非字面义中文翻译为英文给定一条包含谚语、成语、习语等非字面表达的中文句子，模型需生成1条自然、地道、具有文化映射特征的英文译文，优先采用英语中现成的习语、谚语、格言或固定搭配进行等值替代。
子任务2：非字面义中英选择给定一条非字面表达的中文句子及若干个英文候选，模型需进行不定项选择，识别并输出与中文在英语语境中构成公认等值替代关系的Gold标签项。

组织者和联系人

评测组织者： 张冬瑜（大连理工大学教授）
任务联系人： 杨森淇（大连理工大学博士生，ysq1997@mail.dlut.edu.cn）

任务奖项

本届评测设置一、二、三等奖，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/DUTIR-YSQ/CCL2026-Non-literal-Translation-Task

2. 跨语言、小语种、低资源自然语言处理

任务3：跨主流语言与低资源语言对齐的大模型金融评测

任务简介

MapFinBen是首个专门评估大语言模型在高资源语言与低资源语言之间跨语言资源的多语言金融评测基准。该基准覆盖了五类具有代表性的金融任务，全面反映真实金融应用场景中的多样化需求。

在语言设置上，MapFinBen同时涵盖高资源语言（英语和中文）与多种低资源语言（印度尼西亚语、西班牙语、希腊语和日语），有效缓解了现有金融语言模型评测中对高资源语言过度依赖的问题。通过统一的任务设计与评测标准，该框架能够系统评估大模型跨语言、跨资源条件下的金融任务处理能力。

MapFinBen 基准由五个子任务构成，通过综合评估模型在各子任务上的表现来确定最终成绩。具体任务如下：

子任务一：金融选择问答（FinAS） 给定一段金融文本及其对应的问题和候选选项，模型需要从多个备选答案中选择最符合问题语义和金融语境的正确答案。
子任务二：金融文本问答（FinQA） 给定一段金融文本，模型需要根据文本内容回答与之相关的金融问题。
子任务三：金融情感分析（FinSA） 给定一段金融文本，模型需要识别文本所表达的情绪倾向，并将其分类为积极、中性或消极。
子任务四：金融主题分类（FinTC） 给定一段金融文本及候选主题类别，模型需要根据文本内容将其归类到最合适的金融主题类别中。
子任务五：金融文本摘要（FinTS） 给定一段金融文本，模型需要提取并生成简洁、准确的摘要，以概括文本的核心信息和主要内容。

各子任务的数据分布、数据结构、具体评测指标及其计算方式，以及最终成绩的计算方法，详见任务网址。

组织者和联系人

评测组织者：胡刚、岳昆（云南大学）、彭敏（武汉大学）、石磊（云南师范大学）
任务联系人：孔晓勇（kongxiaoyong@stu.ynu.edu.cn）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/HgITSE/MapFinBen

任务4：低资源缅甸语固定模版语句推理评测

任务简介

在缅甸语等低资源语言的翻译中，固定模版语句的推理作为垂类的任务，其语言内部的词性、地名、多元价值观等显著影响着最终的翻译质量。

格式与习惯差异：例如，中文的“第1名”、“第3章”，在缅甸语意为“编号”或者“号”，后面需要紧跟缅甸语数字。地名转写冲突：地名转写往往与缅甸语特有发音、历史习惯冲突，导致中文直接转写容易出现混乱。多元价值观影响：翻译受种族、宗教以及集体主义的影响，不能简单直译。必须充分考虑当地的文化敏感性和宗教背景，否则极易引起误解或反感。

作为固定模版语句的推理任务，机器具体要适应的是模版格式、幻觉处理等任务的重要形式依据。为了提升翻译大模型在缅甸语上的翻译质量，进一步实现机器对人类固定模版语句的深度理解，我们正式推出本次评测任务。

组织者和联系人

评测组织者：陈自岩、刘劲松（新译信息科技有限公司）、朱少林（天津大学）
任务联系人：任虹（天津大学博士生，邮箱地址：rhong@tju.edu.cn）；吴川（天津大学硕士生，邮箱地址：wuchuan@tju.edu.cn）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会提供荣誉证书。奖金由新译信息科技有限公司赞助。

任务网址

https://github.com/merc11/CCL-2026

二、自然语言处理应用

1. 知识图谱

任务5：杂粮育种信息抽取评测

任务简介

杂粮育种领域积累了大量以自然语言形式呈现的知识，广泛分布于论文、品种审定与栽培技术规程等文本中。这些文本记录了育种材料来源、目标性状及测定结果，同时也包含栽培管理条件、胁迫处理信息以及分子标记等证据。由于杂粮育种文本专业术语密集、概念表述多样，且材料名称与试验要素常存在嵌套表达，导致关键信息难以稳定抽取和统一结构化，从而限制了知识检索、证据汇总和育种决策支持等应用的发展。

杂粮育种信息抽取评测（Minor Grain Breeding Information Extraction Evaluation, MGBIE）旨在面向杂粮育种知识管理与数据资源建设需求，系统评估信息抽取模型在杂粮育种相关专业术语识别、育种语境理解、关键信息抽取与结构化表达等方面的能力。MGBIE数据集总规模为2000条样本，其中训练集、验证集和测试集分别包含1000条、400条和600条，用于支持模型的训练、调优与综合性能评估。

MGBIE2026包含以下两个子任务：

杂粮育种命名实体识别：从杂粮育种相关文本中识别并抽取关键实体信息，并输出相应的实体边界及其类型标签。实体类型标签体系涵盖杂粮育种领域的核心概念，共包括12类：作物、品种、性状、生育时期、基因、数量性状位点、分子标记、染色体、育种方法、亲本/杂交组合，非生物胁迫以及生物胁迫。
杂粮育种关系抽取：在已识别实体的基础上，进一步抽取实体之间的语义关系，并以关系三元组的形式进行结构化表示。关系类型体系共包含6类语义关系，分别为：包含、采用、具有、影响、发生于和定位于。

组织者和联系人

评测组织者：胡志伟、孔照胜、高建华（山西省后稷实验室、山西农业大学）；谭红叶、闫智超、李茹（山西大学）；谢倩倩（武汉大学）
任务联系人： 杨森杰（山西大学硕士生，yangsenjie1@sxu.edu.cn）

任务奖项

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖。其中，一等奖1名，二等奖2名，三等奖3名，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/zhiweihu1103/CCL2026-MGBIE

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532465

2. 自然语言处理与医疗、教育、人文、司法等领域结合应用

任务6：中文电子病历疾病与手术ICD自动编码评测

任务简介

近年来，随着人口老龄化加剧和健康意识提升，医疗体系面临着日益增长的服务压力。在医疗信息化进程中，电子病历的广泛应用为解决这一挑战提供了新的可能。为实现医疗数据的标准化管理和共享，世界卫生组织制定了国际疾病分类标准（International Classification of Diseases，ICD）。该标准将数万种疾病及其组合转化为规范的字母数字编码体系，为跨地区、跨机构的医疗数据交换与分析奠定了基础。

然而，对电子病历文本进行人工ICD编码不仅耗时耗力，还容易因专业技能差异导致编码错误。开发自动ICD编码系统，既能提高编码效率和准确率，也能为疾病研究和医疗管理提供更可靠的数据支持。基于上述背景，本任务构建了一个中文电子病历ICD自动编码数据集，该数据集基于脱敏病历数据而构建，共涉及10个科室，18种主要疾病编码，若干种其他疾病编码，16种主要手术编码，若干种其他手术编码，共计2600条数据。该任务给定一段由临床信息构成的文本作为输入，需要模型输出对应的主要疾病编码、其他疾病编码、主要手术编码、其他手术编码。

组织者和联系人

评测组织者：管红娇、鹿文鹏（齐鲁工业大学（山东省科学院））、廉颖、陈国强（山东第一医科大学第一附属医院）
任务联系人： 李传龙（齐鲁工业大学硕士生，icdevaluator@163.com）

任务奖项

本届评测将设置一等奖1名，二等奖3名，三等奖6名，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/QLU-NLP/icdevaluator-26

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532466

报名信息填写表

https://docs.qq.com/form/page/DWWNmV0ZGRnRwampn#/fill

任务7：跨语言文学文本情感分析一致性评测
(Benchmark for Cross-lingual Classical Literature Sentiment Analysis and Consistency)

任务简介

跨语言情感分析一致性评测旨在考察模型对中国古典文学文本的情感理解能力，以及同一语义内容在中英文两种表达下是否能够保持情感判断一致。中国古典文学往往通过意象、典故和隐喻传递情感，具有较强的语境依赖性，因此对模型的跨语言语义理解和情感对齐能力提出了较高要求。

本任务基于中英平行古典文学语料，评估模型在单语言情感识别、跨语言情感迁移以及平行文本一致性建模等方面的表现。

BCCL-CSA 2026 包含三个子任务：

子任务一：细粒度情感识别

参赛系统需分别对中文古典原文及其对应英文译文进行情感分析，预测文本的情感极性和情绪分布。

评测重点包括：

1.情感极性识别准确率

2.情绪分布预测能力

该子任务用于评估模型对单语文学文本情感特征的理解能力。

子任务二：跨语言情感迁移

参赛系统需在一种语言上训练，在另一种语言上测试，考察模型的跨语言情感迁移能力。

评测重点包括：

1.中英之间的情感极性保持一致性

2.不同语言表达下情绪分布的对齐程度

该子任务用于评估模型是否具备稳定的跨语言语义映射能力。

子任务三：平行文本一致性评估

参赛系统需对同一语义内容的中英文平行句对分别进行情感分析，并比较两种语言预测结果的一致性。

评测重点包括：

1.中英文情感极性预测是否一致

2.中英文情绪分布是否相近

该子任务用于评估模型在双语场景下的情感一致性与跨语言对齐能力。

任务特色与创新

1.跨语言情感对齐维度：突破单一语言的情感分类范式，首次聚焦于中英双语在复杂古典文学语境下的情感语义一致性。2.精细化分布标注：提供情绪概率分布（LabelDistribution），精准捕捉文学作品中复杂、模糊的情感底色。3.语料库稀缺性与挑战性：数据集精选自先秦至近代的13部经典著作，涵盖哲学、小说、戏曲等多种体裁，挑战模型泛化性能与抗噪声能力。

数据集说明

数据集CCL-SEL，来源于12部中国经典著作，每部著作各250组中英句子对。

网站建设与论文评审

评测将建设GitHub页面发布数据、脚本与排行榜。评测论文将通过CCL26-Eval通道提交，并进行双盲评审。

组织者和联系人

评测组织者： 张海洋、张霄军（西交利物浦大学）；徐睿峰（哈工大深圳）
任务联系人： 周静狮（Jingshi.Zhou@outlook.com）

任务奖项

一等奖1名，二等奖2名，三等奖3名。

任务网址

https://github.com/Jingshi-Zhou/-BCCL-CSA-2026-

任务8：大语言模型生成中文医疗内容的循证事实核查评测

任务简介

循证事实核查（Evidence-based Medical Fact-checking）是一项旨在验证在线医疗内容真实性的关键任务。随着互联网成为公众获取医疗健康信息的主要渠道，医疗虚假信息的泛滥给公共卫生安全带来了严峻挑战。该任务要求模型不仅要理解医疗声明（Claim），还需要结合检索到的相关证据（Evidence），判断证据对声明的支持程度（如支持、反驳或证据不足）。这一过程对于提高医疗信息的透明度、减少误导性信息的传播具有不可替代的作用，同时也是构建可信赖的医疗问答系统和智能医疗助手的核心安全屏障。

支持(Supported)：证据完全支持声明的内容；
部分支持(Partially Supported)：证据支持声明的部分内容，但存在不确定性或未覆盖的细节；
反驳(Refuted)：证据与声明内容相矛盾；
不确定(Uncertain)：证据与声明相关，但不足以证实或反驳声明的真实性；
不适用(Not Applicable)：证据与声明完全不相关。

组织者和联系人

评测组织者：苏炯龙、蒋正雍、王唯（西交利物浦大学）
任务联系人： 陈彤（西交利物浦大学，Tong.Chen19@student.xjtlu.edu.cn）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/AshleyChenNLP/MedFact

任务9：第二届古诗词赏析评测

任务简介

中文古诗词具有高度凝练性和语言的音乐美，讲究对仗、平仄和押韵。为了准确理解古诗的语义，不仅需要掌握古诗的语言特色，还需要调动对历史、文化背景的知识，结合对古诗中所描绘的自然景象和人物情感的认知，从而进行综合性的推理与理解。

为了进一步衡量模型在中文古诗词赏析场景中的语言理解深度与文化推理能力，我们推出第二届中文古诗词赏析评测。在第一届的基础上，本届评测进一步聚焦模型的深度理解与复杂推理能力，引入更具挑战性的高级任务，以全面考察模型对古诗词文化内涵与高层语义结构的掌握程度。具体任务设置如下：

任务一：古诗词理解：

古诗词字词理解：解释古诗词中短语级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词诗句理解：解释古诗词中诗句级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词情感理解：推断诗人透过作品所传达的情感。本子任务通过选择题的形式对待测系统进行评估。

典故识别：判断诗句中是否包含典故并进行解释。本子任务通过问答题的形式对待测系统进行评估。

任务二：古诗词推理：

古诗词类比：发现古诗词中不同事物之间的相同关系，意象的关联。本子任务通过问答题的形式对待测系统进行评估。

古诗词辨析：依据诗词内容与语境，对给定选项进行辨析，判断其中表述最为合理的一项。本子任务通过选择题的形式对待测系统进行评估。

本评测将根据两个任务的综合性能来确定最终成绩排名。本评测旨在评估自然语言模型自身对中文诗词的理解水平，参赛队伍可以使用开源大语言模型进行微调，禁止使用RAG等技术来利用外部知识回答问题。

组织者和联系人

评测组织者：白雪峰、陈科海（哈尔滨工业大学（深圳））
任务联系人： 朱颖杰、裴振武（哈尔滨工业大学（深圳），zhuyj@stu.hit.edu.cn）

任务奖项

一等奖1名，奖金合计3000元；二等奖1名，奖金合计2000元；三等奖1名，奖金合计1000元。所有奖金将在公布奖项后10个工作日内发布。

任务网址

https://github.com/HITICI-NLPGroup/CCPA-EvalTask

任务报名表

https://docs.qq.com/form/page/DZW50THN4SGhqbm5x

三、生成式AI与大模型核心能力

任务10：基于情景的常识推理评测

任务简介

推理是一种高级认知功能，涉及基于现有知识对新信息进行分析、归纳和演绎。它在人类智能中起着基础性作用。虽然以往的基准测试主要侧重于评估大语言模型（LLMs）在复杂、专业领域内的推理能力，但它们往往忽视了类人认知的一个关键方面：常识推理。评估大型语言模型中的这种常识推理能力对于人工智能的发展至关重要。这种基本能力显著影响着 LLMs 在日常情境中的决策，并且对于在通用人工智能（AGI）中迈向类人智能至关重要。

为了全方位、细粒度地诊断大模型的常识推理能力，我们提出了基于情景的常识推理评测数据集(Scenario-based Commonsense Reasoning Evaluation, SCoRE)，用以评估大语言模型在常识场景下的复杂逻辑推理能力。根据所涉及的常识领域，该数据集包含的任务可分为以下五类： * 空间常识推理：给定一个空间场景和若干已知的实体间方位关系，本任务要求机器推理出实体在空间场景中的位置，以及未知的方位关系。 * 时间常识推理：给定一个包含若干事件的时间叙述场景和已知的事件间时间关系（如先后顺序、持续时长、相对或绝对时间点），本任务要求机器推理出事件在时间轴上的具体时刻，以及未知的事件间时间跨度或次序关系。 * 社会常识推理：给定一个社会交互场景和若干已知的人物间人际关系（如亲属、职场、朋友或师徒关系），本任务要求机器推理出人物在社会网络中的具体角色或地位，以及人物间隐含的或未知的社会关系。 * 自然常识推理：给定一组自然物体（或实体）和若干已知的属性约束条件（如类别归属、物理性状、功能用途或感官特征），本任务要求机器推理出物体与描述（或位置）的一一对应关系，以及物体未知的属性或分类特征。 * 融合常识推理：融合领域任务描述旨在构建一个多维度条件交织的推理问题。它要求机器同时处理来自空间、时间、自然属性及社会关系等多个领域的约束与常识，并建立统一的推理模型以进行协同分析与决策。其核心挑战在于，单一领域的逻辑链条不足以解决问题，必须识别并整合不同领域的隐含联系，才能对复杂多因素情境进行有效推断。

组织者和联系人

评测组织者：詹卫东、穗志方（北京大学）
任务联系人：胡楠（北京大学博士生，hunan@stu.pku.edu.cn）

任务奖项

一等奖0-1名；二等奖0-2名；三等奖0-4名。

任务网址

https://pku-space.github.io/SCoRE2026/

任务11：面向自动驾驶的自动化危害分析与风险评估评测

任务简介

随着汽车电子电气架构（E/E 架构）向智能化与网联化深度演进，功能安全已超越早期以机械系统为主的工程保障范畴，演变为覆盖软硬件协同设计的系统化安全工程体系，成为自动驾驶技术落地与量产的关键基石。在此体系中，危害分析与风险评估（HARA, Hazard Analysis and Risk Assessment）承担着风险识别与顶层安全需求定义的核心职能。该过程通过对车辆运行场景、潜在功能失效模式及环境要素的系统化建模，提取车辆运动状态、道路拓扑及交通参与者分布等关键特征，并基于严重度（S）、曝光率（E）和可控性（C）三个维度对风险进行量化评估，确定汽车安全完整性等级（ASIL），并将评估结果转化为顶层安全目标，进而分解为可验证的软硬件安全需求，指导系统设计与工程实施。

为推动大模型与人工智能技术在预期功能安全及功能安全领域的落地应用，提升HARA流程的自动化与智能化水平，我们提出“面向自动驾驶的自动化危害分析与风险评估评测任务”并构建了一个专注于评估自动驾驶安全逻辑推理与需求生成的结构化数据集。该数据集源自脱敏的真实工业项目数据，聚焦于动力系统核心高危失效模式——“非预期驱动力/扭矩输出”，共包含3,000条高质量标注数据。

本次评测包括以下两个子任务： * 危害事件识别与场景描述生成：该任务要求模型基于给定的车辆运行工况与环境参数，精准识别潜在的危害事件，并生成符合工程规范的危害场景结构化描述。 * 风险参数评定与等级推理：该任务要求模型基于场景特征，推理并输出HARA分析的关键风险指标（S/E/C），并据此判定相应的安全完整性等级。

组织者和联系人

评测组织者：杨旭（北京理工大学），张海洋（西交利物浦大学），王唯（西交利物浦大学）
任务联系人：王子木（西交利物浦大学博士生， Zimu.Wang19@student.xjtlu.edu.cn）

任务奖项

一等奖1名，奖金合计5000元 * 二等奖1名，奖金合计3000元 * 三等奖1名，奖金合计2000元。

赞助情况：本次评测奖金由优策科技（福州）有限公司赞助。

任务网址

https://ccl2026-hara.github.io

任务12：优酷无障碍剧场杯-面向听障群体的信息无障碍结构化字幕生成评测

任务简介

在我国已进入“制度保障”阶段的信息无障碍建设背景下，字幕已成为听障及老年群体获取音视频信息的关键无障碍服务。然而，现有技术评测缺乏面向真实应用场景、统筹考量“可读性”、“核心信息准确度”与“响应速度”的基准。本任务从“AI字幕是基础设施”的视角出发，系统评测从“语音/视频输入”到生成“面向人类阅读的结构化字幕文档”的完整链路，特别聚焦于解决高信息密度真实场景（如医疗、金融、政务办事）中“社交时差”与“关键信息丢失”两大痛点。

为贴近不同应用环境，评测任务被设计为两个平行赛道，以全面评估技术的能力上限与落地可行性：*赛道A：PC端模拟云端或高性能桌面环境，旨在探索技术性能上限，不限制计算资源。*赛道B：手机端模拟移动设备（手机、AR眼镜）实时交流场景，对模型体积、内存占用及实时性提出明确的约束要求。

每个赛道均包含以下两个子任务：

1. 子任务一: 基础字幕生成（Foundation Track） 评估语音转写、时间戳对齐、噪声鲁棒性等基础能力。 评测指标： 转写准确性、时间轴对齐精度、复杂多人场景下的综合处理能力。

2. 子任务二: 结构化可读字幕生成（Structured Track） 评估模型生成符合人类阅读习惯、包含合理断句、标点、说话人区分、并确保核心关键词准确性的结构化字幕的综合能力。 自动评测指标： 文本准确性、核心词召回率、模拟显示延迟、时间轴合理性偏差、结构一致性。 人工评测指标（抽样）： 可读性（1-5分）、关键信息完备性、断句合理性、标点与语气匹配度、幻觉文本严重程度。

数据规模与来源

本评测构建了总规模约30–50小时的多场景真实语音/视频测试集，涵盖新闻演讲、影视综艺、生活真实交流、多人会议等四类典型场景。其中，约10–15小时的核心子集提供更高粒度的结构化标注与核心关键词标注，支持Track2的深度评测。数据来源强调真实性与多样性，包含背景音乐干扰、环境噪声、远场收音、多人重叠语音等复杂声学条件，全面模拟听障用户在办事场景中的实际听觉挑战。

组织者和联系人

评测组织者：姚登峰（北京联合大学/清华大学），徐聪（中国聋人协会手语研究与推广委员会），梁振宇（深圳市信息无障碍研究会专家委员会），曲欣（北京市设计学会无障碍设计专委会）
任务联系人：施杰、叶博文（北京联合大学硕士生，20251083510951@buu.edu.cn），张洋（清华大学博士生）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会为获奖队伍颁发荣誉证书；同时设立赞助奖项，由阿里巴巴等头部科技企业提供奖品支持。

任务网址

https://github.com/ALINOSJ/IASSGE-2026

报名表

https://f.kdocs.cn/g/aYC93cfz/

任务13：图像文本翻译质量评测

任务简介

随着全球化进程加速和跨语言交流需求增长，图像文本翻译（In-Image Translation，简称“图翻”）已成为机器翻译的重要分支。与传统文本翻译不同，图翻需同时处理视觉与语言信息，涵盖文本检测、识别、翻译与渲染等多个环节，在跨境电商、旅游导览、多语言内容本地化等场景中具有广泛应用价值。中文图翻面临独特挑战：汉字视觉复杂性高、书写方向多样（横排/竖排）、与目标语言存在显著文本长度差异，且蕴含丰富文化内涵。尽管大型多模态模型在图像理解方面取得进展，但在保持视觉一致性的前提下实现高质量图翻仍困难重重。尤其在电商场景中，系统需区分“应翻译内容”（如功能说明）与“应保留内容”（如品牌标识），对翻译完整性与合规性提出更高要求。现有机器翻译评测指标（如BLEU、METEOR）仅关注文本准确性，无法衡量视觉呈现、排版布局、美学协调等关键维度。而人工评测成本高、主观性强、难以规模化。因此，亟需建立标准化、多维度、可自动化的图翻质量评测框架。

本次评测聚焦于如何设计和训练能够从多个维度对图像翻译结果进行精准评分的自动评测系统，从而为该领域的技术进步提供可靠的度量工具。旨在：建立标准化基准：构建包含多场景、多维度人工标注的大规模评测数据集。推动方法创新：鼓励研究者设计能够模拟人类专家判断的自动评测模型。探索评测范式：通过开放式竞赛，发现在不同应用场景下最有效的评测策略。促进社区共识：图像文本翻译质量评测建立可复现、可比较的评价标准。

组织者和联系人

评测组织者：李海军、尚姿芙、梁杰、徐昭、骆卫华
任务联系人：韩雨轩（阿里云技术专家 baileng.hyx@alibaba-inc.com）

任务奖项

一等奖1名，奖金合计20000元；二等奖1名，奖金合计10000元；三等奖2名，奖金合计5000元。

赞助情况：本次评测奖金由阿里云赞助，由中国中文信息学会为获奖队伍颁发荣誉证书。

任务网址

https://tianchi.aliyun.com/competition/entrance/532463?spm=5176.12281973.J_6-HJZaSjQocH7SIdvbK02.1.376b3b74H1HNIn

评测任务14：中文会话含义与隐喻能力评测

任务简介

对“言外之意”的理解是人类交际的核心能力。而以往针对大语言模型的评测更侧重其在具体垂域中的表现，较少从语用推理与隐喻义识别角度评估模型的语言能力。本评测共设计两个核心赛道，旨在系统评估大语言模型在中文语境下的会话语义理解能力与隐喻理解能力。

赛道一：会话含义理解

为了实现交流目的，会话参与者在交流时通常遵循一套基本原则，这一原则被格赖斯总结为合作原则。该理论从量、质、关系、方式等范畴提出四项准则。量的准则要求提供适量信息，既不多余也不过少；质的准则要求说话真实，证据充分；关系准则要求话语要与当前话题相关；方式准则要求表达简洁有序，避免晦涩和歧义。基于这四项准则，格赖斯提出了会话含义理论，当说话人违反了这些准则或次准则的时候，听话人就需要超越话语的表面意义去领会说话人的隐含意义。本赛道用于评估模型识别、理解会话含义的能力。

子任务一：会话含义识别任务

给定一段多轮对话，要求模型指出特定人物的哪一句话是具有会话含义的。

子任务二：会话含义选择任务

给定一段多轮对话，要求模型从四个选项里选出有会话含义句子的正确含义。

子任务三：会话含义释义任务

给定一段多轮对话并明确指出具有会话含义的句子，要求模型生成一段解释。

赛道二：隐喻理解与生成

隐喻作为人类认识世界的重要方式，在概念建构和思维过程中发挥着关键作用。隐喻能力不仅关系到语言表达本身，也与创造性思维、抽象推理以及知识迁移等更高层次的认知过程密切相关。人们通过具体、熟悉的源域来理解抽象、陌生的目标域，这一映射机制贯穿于日常语言与思维之中。本赛道用于评估模型识别、理解并创造性地使用隐喻的能力。

子任务一：隐喻识别任务

给定一段文本，要求模型识别出此文本中的句子是否使用隐喻这一修辞手法，如包含隐喻，模型需要分别提取出隐喻句当中的本体、喻体。

子任务二：隐喻释义生成任务

给定一段文本，要求模型用非隐喻的语言解释隐喻句的含义。

子任务三：隐喻句生成任务

不限定主题，要求模型自主生成恰当的隐喻表达。

组织者和联系人

组织者：杨尔弘、杨天麟、岳岩、安维华（北京语言大学）
联系人：张艺璇（北京语言大学博士生，blcuicall@163.com）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/blcuicall/CCIME2026

学术会议｜2026年中国数字人文年会（CDH2026）

2026年4月29日 09:01

徐惠 2026-04-29 09:01 江苏

CDH2026将于7.31-8.3在内蒙古师大举办，征论文与项目并开放注册。

转载自“语言学心得”

——CDH2026——

“大哉言数：AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会（CDH2026）

会议通知(第一号)

2026年7月31日-8月3日

内蒙古师范大学

2026期待与您相聚

当前，人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字，贯通古今：从古人“参天量地”的度量智慧，到今日数据驱动的数字人文，数字化浪潮不仅为人文学科开辟了全新的研究范式，更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

在此背景下，中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数：AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会（CDH2026）。会议将邀请知名专家学者，围绕数字人文及相关领域的前沿问题，开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议，共探AI时代人文研究的范式重构与价值回归，为数字人文发展注入新动能。

会议议题

包括但不限于：

1. 典籍重光

科技古籍与多民族文献的智慧化整理

2. 时空重构

GIS与时空大数据驱动的文明演进研究

3. 协智重塑

多智能体与具身智能的人文社会仿真

4. 谱系重绘

知识图谱与智能注释驱动的知识重组

5. 记忆重述

AIGC赋能下的文化遗产与艺术创新

6. 文脉重析

计量方法与主题模型的文本深度挖掘

7. 伦理重思

数字人文中的算法批判与负责任创新

8. 素养重育

数字人文课程体系与跨学科人才培养

9. 数字人文学科建设

会议信息

会议时间

2026年7月31日至8月3日

会议地点

内蒙古师范大学

（呼和浩特市赛罕区昭乌达路81号）

会议注册

本次会议将于2026年6月开放注册报名。

注册费：1500元（6月30日之前早鸟价1000元），学生价800元，获会议录用宣讲论文/海报/项目作者一人可免注册费，如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

征文征集

1、会议征文对象为数字人文相关专业的专家、学者与在读学生。

2、论文要求为：作品原创，未发表；中文、英文皆可；问题明确、方法严谨、论证充分、引用规范、观点新颖。

3、征文分为两轮，第一轮为论文摘要征集，第二轮为入选论文全文提交，具体要求如下：

（1）论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介（姓名、单位、年级、邮箱、手机号码、研究方向等），摘要内容不少于500字。

（2）论文全文格式可参考附件“CDH2026论文格式规范与要求”，正文字数为7000-15000字。

4、组委会将邀请国内知名学者组成专家评审组，对提交的论文开展严格评审，从中选出高水平学术论文在会议上进行交流和专家点评。

5、论文提交邮箱：

20250051@imnu.edu.cn。邮件标题格式为“CDH2026论文摘要/全文-姓名-单位”。

6、摘要提交截止时间：

2026年4月30日

摘要录用通知时间：

2026年5月30日

论文全文提交截止时间：

2026年6月30日

项目征集

1、本次会议征集项目为中文或中国主题的数字人文研究项目，包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2、所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名，并提供相关附件（包括但不限于网站、APP、小程序、视频及图片等）。

3、请将报名表和相关附件压缩，以“CDH2026项目-项目名称”命名，发送至邮箱20250051@imnu.edu.cn。

项目征集截止时间：

2026年5月20日

会议组织

主办单位

中国索引学会

内蒙古师范大学

承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

协办单位（按笔画顺序排列）

山西数字人文研究院

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

中国人民大学数字人文研究院

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

中山大学信息管理学院

中山大学数字人文实验室

北京大学数字人文研究中心

电子科技大学数字文化与传媒研究中心

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

武汉大学数字人文研究中心

复旦大学大数据研究院人文社科数据研究所

清华大学中国古典文献研究中心

南京大学高研院数字人文创研中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

南京大学中华文明创新实验室

（持续更新中）

媒体支持（按笔画顺序排列）

《全国报刊索引》

「全国报刊索引」公众号

上海师范大学数字人文网

上海社科院信息所社科智能实验室（AI4SS Lab）

《中国数字人文》

「中国索引学会」公众号

「SHNU 数字人文」公众号

「比特人文」公众号

《数字人文》

《数字人文研究》

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

南京大学中华文明数智创新实验室

（持续更新中）

有意参与协办和媒体支持的单位，请扫描下方二维码登记相关信息，我们将在下一轮的会议通知中更新名单。

会议联络

会议邮箱：20250051@imnu.edu.cn

会务咨询：周老师 13191432051

附件

CDH2026论文格式规范与要求

2026年中国数字人文年会项目报名表

欢迎参会！

今日小编：海

审核：心得君

转载&合作请联系

"心得君"

微信：xindejun_yyxxd

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

计算语言学、语言智能等38个新专业出炉

2026年4月29日 09:01

徐惠 2026-04-29 09:01 江苏

教育部2026年4月28日发布本科专业目录，新增38种专业，优化专业结构服务国家战略。

转载自“央视新闻”

教育部今天（28日）发布《普通高等学校本科专业目录（2026年）》，共新增38种普通高校本科新专业。本次获批申办高校可纳入2026年高考招生。

今年，教育部精准对接国家战略需求，增设能源科学与工程、深地科学与工程等专业；服务传统产业优化升级，增设交通能源融合工程、农业机器人等专业；推动新兴产业和未来产业创新发展，增设生物制造、脑机科学与技术等专业；立足服务业扩能提质，增设数字文旅、商业人工智能等专业；聚焦打造智能经济新形态，增设数字贸易、数字金融等专业。

同时，进一步完善战略急需专业超常设置机制，支持哈尔滨工业大学、北京航空航天大学等9所高校增设具身智能新专业，推动新一代人工智能与实体经济深度融合，赋能经济社会高质量发展。

为加强学科专业目录协同联动，推动本科专业目录与研究生教育学科专业目录有机衔接、上下贯通，更好适应新兴交叉学科发展和复合型人才培养需求，2026年本科专业目录在“交叉学科”门类中首批列入未来机器人、交叉工程等11种目录内已有专业和具身智能、脑机科学与技术等4种首次列入目录的新专业。目前，本科专业目录共涵盖13个门类、92个专业类、883种专业。

据统计，“十四五”期间，全国高校新增本科专业布点1.02万个、撤销或停招1.22万个，专业调整幅度持续增大，累计调整比例超30%，今年全国高校专业调整比例首次突破10%。本科专业结构进一步优化，高校服务国家战略与经济社会高质量发展能力显著提升。

同时，教育部深入开展专业设置与区域发展匹配度提升工作，持续完善省域优先发展和暂缓发展的指导性专业清单年度发布机制，指导各省对本地区人才供需关系进行前瞻性研判，推动各省发布覆盖473种专业的急需专业清单和专业预警清单。黑龙江、浙江、重庆等8省市试点开展专业设置与区域发展匹配度提升工作，打造特色优势专业集群247个，有力支撑区域经济社会发展。

（总台央视记者：高晨源）

▌本文来源：央视新闻微信公众号

监制/李浙主编/王瑄

编辑/林湘瑜

©央视新闻

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

专业资讯 | 2025年数字人文奖（DH Awards 2025）——突出数字人文中的资源

2026年4月28日 09:00

徐惠 2026-04-28 09:00 江苏

2025数字人文奖揭晓，分七大类公布获奖及提名项目，面向公众评选。

转载自“数字人文资讯”

数字人文年度奖项于2012年设立，获奖资源可以向公众可以提名，以表彰数字人文相关的人才和专业知识。提名与投票环节全面面向公众，每人限投票一次。最终获奖名单由提名委员会（Nominations Committee）参考票选结果综合评定。设立该奖项旨在提升公众关注度，推介有趣的数字人文资源，并吸引更多人参与社群工作。提名资源不限语言、文字体系及研究领域。我们特别欢迎少数民族语言、文化及相关领域的代表性资源参选。所有被提名的资源都具有研究价值，有助于深入了解数字人文的边界。

数字人文数据可视化项目

（例如：对数字人文数据资源进行可视化呈现的作品）

第一名

香港流行文化地图

(Hong Kong Pop Culture Map)

https://digital.lib.hkbu.edu.hk/culture-map/

第二名

Thiep 3D

https://thiep3d.univ-littoral.fr/

第三名

数字幽灵展览

(Digital Ghosts exhibition)

https://inspace.ed.ac.uk/digital-ghosts/

其他提名项目（按字母顺序排列）：

阿图尔·施尼茨勒书信 (Arthur Schnitzler Briefe): https://schnitzler-briefe.acdh.oeaw.ac.at/statistiken.html
Gallicagram——法国报刊与遗产语料库的n元语法查看器 (Gallicagram — An ngram viewer for French press and heritage corpora): https://www.gallicagram.com/
隐藏的宠物食品事件：为何事件数据被隐藏，为何那些生命如幽灵般被遗忘？ (Hidden Incidents of Pet Food: Why is the incident data hidden, and why are those lives forgotten like ghosts?): https://hidden-incidents-of-pet-food.com/
奥纳西斯基金会可视化项目：C.P.卡瓦菲的亚历山大（地图）(Onassis Foundation Visualizations: The Alexandria of C.P. Cavafy (map)): https://cavafy-map.onassis.org/ ， C.P. 卡瓦菲斯（时间线）(C.P. Cavafy (timeline)): https://cavafy-timeline.onassis.org/ ，亚里士多德·奥纳西斯（时间线）(Aristotle Onassis (timeline)): https://asonassis-timeline.onassis.org/timeline
森弗的世界 (Senfl’s World): https://senfls-world.humap.site/map
政党宣言独特性的可视化 (The Distinctiveness of Party Manifestos Visualized): https://www.rubenros.nl/partijtaal
追踪早期数字艺术 (Tracing Early Digital Art): https://tracingdigital.art/
1945年抗战最后几个月李容康日记的可视化 (Visualization on Lee Yonggang’s Diary during the final months of the War of Resistance in 1945): https://digitalhumanities.hkust.edu.hk/leeyonggang-diary/map_1945
1896年展览 (Vystavka1896 goda (Выставка 1896 года)): https://gis.flexatel.xyz/viewer/20b5b827-42c1-4d8c-8277-6003fa1922ce
词雨 (Word Rain): https://wordrain.org/

数字人文数据集或模型

（例如：用于数字人文研究的文本语料库、数据表、模型或类似内容）

第一名

哥伦比亚互联网与网络史：1988-1996年多人讲述的故事

(History of the Internet and the Web in Colombia. A story told in many voices 1988-1996)

https://historiasinternet.uniandes.edu.co/

第二名

数字萨福

(Sappho Digital)

https://sappho-digital.com/index.html

第三名

诗树——11种语言的诗歌语料库

(PoeTree – Poetry corpora in 11 languages)

https://poetree.org

其他提名项目（按字母顺序排列）：

古汉语翻译数据集 (Ancient-Chinese-Translation-Dataset): https://github.com/chowshelly101-jpg/Ancient-Chinese-Translation-Dataset/tree/main
《韵镜》数字重建与比较平台 (Digital Reconstruction and Comparative Platform for the Yunjing): https://yunjing-new.onrender.com
FicSim：长篇小说的多层面语义相似性数据集 (FicSim: A Dataset for Multi-Faceted Semantic Similarity in Long-Form Fiction): https://aclanthology.org/2025.findings-emnlp.1375/
遗产——语义工具与互操作性调查 (Heritage – Semantic Tools and Interoperability Survey): https://h-setis.cnr.it/
iberz：意第绪语翻译数据库 (iberz: a database of Yiddish translations): https://iberz.org
期刊数字语料库 (Journal Digital Corpus): https://zenodo.org/records/18093888 和 https://github.com/Modern36/journal_digital_corpus
KPoEM（韩国诗歌情感映射）数据集 (KPoEM (Korean Poetry Emotion Mapping) Dataset): https://huggingface.co/datasets/AKS-DHLAB/KPoEM
本体论：文本发生学 (Ontologie: Textgenese (Ontology: Text Genesis)): http://gams.uni-graz.at/archive/objects/o:kofleraural.genontology/methods/sdef:Ontology/get
昴宿星古代地名辞典 (Pleiades gazetteer of ancient places): https://pleiades.stoa.org
PREMOVE——古希腊语和拉丁语带前缀运动动词的历时数据集 (PREMOVE – A diachronic dataset of Ancient Greek and Latin annotated PREverbed MOtion VErbs): https://doi.org/10.5281/zenodo.19183130
陌生人/家中的帮手：有外籍家庭佣工的香港家庭 (Strangers / Helpers at Home: Hong Kong Families with Foreign Domestic Workers): https://digital.lib.hkbu.edu.hk/helper-at-home/en/home.html
未来主义小说的时间视域，Post45数据共同体 (Time Horizons of Futuristic Fiction, Post45 Data Collective): https://doi.org/10.18737/552626
水族水书文字数据库和识别平台 (Shui script database and recognition platform): https://shuishu.ihanzi.net/

数字人文短篇出版物

（例如：数字人文领域的博客、文章、影片）

第一名
沃尔什，梅兰妮等.《熊会是男孩》

The Pudding (Walsh, Melanie (et al.). ‘Bears Will Be Boys’, The Pudding) https://pudding.cool/2025/07/kids-books/

第二名
东布罗夫斯基，奎因.《别再对自己撒谎：集体错觉与数字人文资助》，载《重新框架数字学术中的失败》

(Dombrowski, Quinn. ‘Stop lying to yourself: Collective delusion and Digital Humanities grant funding’, in Reframing Failure in Digital Scholarship)

https://read.uolpress.co.uk/read/reframing-failure-in-digital-scholarship-a56118ab-e4eb-4eb4-9dca-e8c343c6441b/section/9bbd0f75-6d96-48e2-bcc1-e8e5a6d07ce9 #ch1

第三名
丘拉，阿里安娜.《在包容性研究文化中与破碎共处：我们能从数字人文实验室的失败和过程中学到什么》，载《重新框架数字学术中的失败》

(Ciula, Arianna. ‘Living well with brokenness in an inclusive research culture: what we can learn from failures and processes in a digital humanities lab’, in Reframing Failure in Digital Scholarship)

https://read.uolpress.co.uk/read/316fdea1-5051-4f50-8957-afbc51342998/section/2e8944d9-ba98-4ef9-bcb8-159fa546e237 #ch7

其他提名项目（按字母顺序排列）：

贝里，大卫·M. Stunlaw (Berry, David M. Stunlaw): https://stunlaw.blogspot.com/2025/
汉弗莱斯，马克.《Gemini 3解决了手写识别问题，这是一个痛苦的教训》，生成史 (Humphries, Mark. ‘Gemini 3 Solves Handwriting Recognition and it’s a Bitter Lesson’, Generative Histories): https://generativehistory.substack.com/p/gemini-3-solves-handwriting-recognition
约翰逊，娜塔莎.《计算当代类型与文学小说的形式与制度边界》，载《计算机与人文学科文集》第3卷 (Johnson, Natasha. ‘Computing the Formal and Institutional Boundaries of Contemporary Genre and Literary Fiction’, Anthology of Computers and the Humanities, Vol 3): https://doi.org/10.63744/Ztw8stkvUjM1
梅智，齐.《销售文化与生活现实：后疫情时代《纽约时报》话语中唐人街语言商品化的计算分析》 (Meizhi, Qi. ‘Selling Culture vs. Lived Reality: A Computational Analysis of Chinatown’s Language Commodification in Post- Pandemic NYT Discourse’): https://drive.google.com/file/d/14inHNCFj-k08kblQXChWl2WoFMkl0YvP/view?usp=sharing
纳拉扬·桑卡兰，阿迪蒂亚等.《全球节拍，本土语言：研究公告牌排行榜上K-pop热曲中的语码转换》，第六届计算人文研究会议 (Narayan Sankaran, Aditya (et al.). ‘Global beats, local tongue: studying code switching in K-pop hits on billboard charts’, The 6th edition of the Computational Humanities Research (CHR)): https://hal.science/hal-05409951v1
韦尔默-科兰，亚历克斯等.《数字公平的替代基础设施：基于社区的互联网接入》，载《关键基础设施研究与数字人文》 (Wermer-Colan, Alex (et al.). ‘Alternative Infrastructures for Digital Equity: Community-Based Internet Access’ in Critical Infrastructure Studies and Digital Humanities): https://drive.google.com/file/d/15qDahbfbuF8j9QaDxG-pZgI5Uorjn1Vd/view
怀亚特·维斯孔蒂，阿曼达.《现在的#DHMakes是什么？》，文学极客 (Wyatt Visconti, Amanda. ‘What is #DHMakes Now?’, Literature Geek): https://literaturegeek.com/2025/12/31/what-is-dhmakes-now
波德里亚奇科娃，玛丽亚.《语言语料库的引擎盖之下：神经网络和NLP库如何在俄语国家语料库中使用》 (Подрядчикова, Мария. ‘Под капотом у языкового корпуса: как нейросети и NLP-библиотеки используются в НКРЯ’ (Under the hood of the language corpus: how neural networks and NLP libraries are used at the RNC)): https://sysblok.ru/linguistics/pod-kapotom-u-jazykovogo-korpusa-kak-nejroseti-i-nlp-biblioteki-ispolzujutsja-v-nkrja/
普罗尼娜，德米特里娅.《书写者已死，作者万岁！——在大语言模型时代，人类文本还有位置吗？》，系统博客 (Пронина, Дмитрия. ‘Скриптор умер, да здравствует автор! — есть ли место человеческому тексту в эпоху больших языковых моделей?’ (The scriptor is dead, long live the author! – is there a place for human text in the age of large language models?), Системный Блокъ): https://sysblok.ru/blog/blog_dmitrii_pronin/skriptor-umer-da-zdravstvuet-avtor-est-li-mesto-chelovecheskomu-tekstu-v-jepohu-bolshih-jazykovyh-modelej/

数字人文工具或工具套件

（例如：用于构建数字人文资源的工具）

第一名
ArtVis——艺术史可视化

(ArtVis – Art History visualized)

https://artvis.cvast.tuwien.ac.at/

第二名
多民族语言智能数据处理与知识服务系统

(Multilingual Intelligent Data Processing and Knowledge Service System)

http://106.12.154.220:15001/

第三名
RelicarIA

https://relicaria.streamlit.app/

其他提名项目（按字母顺序排列）：

CERatosaurus——用于文本比较和分析的字符错误率计算工具 (CERatosaurus – A Character Error Rate (CER) calculation tool for text comparison and analysis): https://ceratosaurus.humanities.tools
DaMSym——语义检索工具 (DaMSym – Tool for semantic retrieval): https://damsym-itserr.d4science.org/
远观浏览器 (Distant Viewing Explorer): https://distantviewing.org/dvexplorer/
LogosLink (LogosLink): http://www.iatml.org/en/LogosLink/
移动开放弹性电子图书馆 (Mobile Open Resilient Electronic Libraries (MOREL)): https://morelrep.github.io
Pandore工具箱 (Pandore Toolbox): https://obtic-gpu1.mesu.sorbonne-universite.fr/pandore/
Recogito工作室 (Recogito Studio): https://recogitostudio.org/
Scholarly XML：Visual Studio Code扩展 (Scholarly XML: an extension for Visual Studio Code): https://marketplace.visualstudio.com/items?itemName=raffazizzi.sxml
teiphy：将TEI XML校勘转换为NEXUS、BEAST 2.7 XML等格式的Python包 (teiphy: A Python package to convert TEI XML collations to NEXUS, BEAST 2.7 XML, and other formats): https://github.com/jjmccollum/teiphy
TEI出版者 (TEI Publisher): https://teipublisher.com/index.html
TwoHillsLab大数据文本分析平台 (TwoHillsLab platform for big-data textual analysis): https://TwoHillsLab.com
VULCA: https://vulcaart.art/
Xanthan: https://xanthan-web.github.io/

数字人文训练材料

（例如：各种形式的讲座、幻灯片、练习、视频或操作指南）

第一名
情境中的负责任数据集：协作设计伦理人文学科数据教育

(Responsible Datasets in Context: Collaboratively Designing for Ethical Humanities Data Education)

https://www.responsible-datasets-in-context.com

第二名
照亮过去——低成本多光谱成像培训

(Illuminating the Past — Training for low cost multispectral imaging)

https://grants.uccs.edu/illuminating-the-past/

第三名
古代文本课程教材的大语言模型 (LLM-for-Ancient-Text-Coursebook)

https://github.com/chowshelly101-jpg/LLM-for-Ancient-Text-Coursebook/tree/main

其他提名项目（按字母顺序排列）：

探索数据可视化如何阐明复杂性以及如何欺骗的系列文章 (A series exploring how data visualization can clarify complexity—and how it can also deceive): https://www.sysblok.ru/infographics/ne-ver-glazam-svoim-kak-masshtab-iskazhaet-dannye/ , https://www.sysblok.ru/infographics/iskazhenie-vosprijatija-riski-ispolzovanija-3d-diagramm/ 和 https://www.sysblok.ru/infographics/ostorozhno-os-obrezana-kak-nas-obmanyvajut-grafiki/
人文学科原生数字研究课程（查看课程请使用访客访问或创建免费账户）(Born-Digital Research in the Humanities Course (to view the course, use guest access or create a free account)): https://reshaped.sas.ac.uk/course/view.php?id=32
数字星期三 (Digital Sreda): http://dhri.ru/projects/sreda/
我们计数 (Nosotres Contamos): https://nosotrescontamos.unr.edu.ar/
如何下载整个Telegram：使用Python自动导出频道 (Как скачать весь Telegram: автоматизация выгрузки каналов с помощью Python (How to Download Entire Telegram: Automating Channel Downloads with Python)): https://sysblok.ru/courses/kak-skachat-ves-telegram-avtomatizacija-vygruzki-kanalov-s-pomoshhju-python/

数字人文资源

（例如：数字人文数字学术出版物、档案库或资源库）

第一名
看不见的东方数字语料库

(Invisible East Digital Corpus)

https://www.invisible-east.org/

第二名
19世纪奥里诺科河旅行者

(Viajeros del Orinoco Siglo XIX)

https://biblioteca.uniandes.edu.co/proyectos/viajeros-orinoco/index.html

第三名
20世纪印度建筑档案，PAHA（浦那建筑史档案馆）

(Architectural Archives of 20th century India, PAHA (Pune Architectural History Archive))

https://paha.site

其他提名项目（按字母顺序排列）：

非裔美国诗歌：数字选集 (African American Poetry: A Digital Anthology): https://scalar.lehigh.edu/african-american-poetry-a-digital-anthology/index
数字人文项目巡礼 (A parade of Digital Humanities projects): https://bik.sfu-kras.ru/elib/view?id=BOOK1-%D0%91%D0%91%D0%9A71/%D0%9F%20180-445824
康德时代柯尼斯堡的三维重建 (A three-dimensional reconstruction of Königsberg during the time of Immanuel Kant): https://worldkant.ru/
BASIRA：文艺复兴艺术中的书籍作为符号 (BASIRA: Books as Symbols in Renaissance Art): https://basira.library.upenn.edu/
《贝奥武甫》后世文献数据库 (Beowulf’s Afterlives Bibliographic Database): https://beowulf.dh.tamu.edu
翻译中的拉丁美洲非裔作家 (Black Latin American Writers in Translation (BLAWiT)): https://www.blawit.org
特色字体目录 (CATALOG of DISTINCTIVE TYPE (CDT)): https://cdt.library.cmu.edu/
奥斯曼音乐语料库 (Corpus Musicae Ottomanicae): https://corpus-musicae-ottomanicae.de/content/index.xml?lang=en
维耶斯昆斯编年史 (Cronicas Viesquences (Viesquences Chronicles)): https://cronicasviesquences.omeka.net/
深入首尔项目 (Deep Into Seoul Project): http://deepseoul.net
典津：中国古代典籍全球图像目录 (Dianjin: Global Image Catalogue of Ancient Chinese Book Collections): https://guji.cckb.cn
乌尔里希·施密德尔《拉普拉塔河之旅》数字版 (Digital Edition of the Viaje al Río de la Plata, by Ulrich Schmidel): https://hdlab.space/viaje-al-rio-de-la-plata/
数字《源氏物语》 (デジタル源氏物語 : https://genji.dl.itc.u-tokyo.ac.jp/en
数字阅读 [1994–2025] (Digital T[H]Readings [1994–2025]): https://archive.mezbreezedesign.com/threadings/
Elfenomeno.com: https://www.elfenomeno.com/en/
波多黎各文学项目 (El Proyecto de la literatura puertorriqueña / The Puerto Rican Literature Project): https://plpr.uh.edu/
法律面前人人平等：开放教育资源 (Equality Before the Law: An Open Educational Resource): https://teachinglegalhistory.unl.edu/
游戏诗歌杂志，第1期：第一步 (Game Poems Magazine, Issue #1: First Moves): https://www.gamepoems.com/issue01/
GAMS——人文学科资产管理系统 (GAMS – Geisteswissenschaftliches Asset Management System // Humanities’ Asset Management System): https://gams.uni-graz.at/
《绅士爱美人》评注版 (Gentlemen Prefer Blondes: A Critical Edition): https://doi.org/10.21900/wd.13
Intuition——为深度读者提供的人工智能书籍 (Intuition — AI-powered books for deep readers): https://readintuition.online
约翰·斯诺——流行病学史上的巨人 (John Snow – Historical Giant in Epidemiology): https://epi-snow.ph.ucla.edu/
《亚历山大的书》中的艺格敷词 (La écfrasis en el Libro de Alexandre): https://gabrielcalarco.github.io/ecfrasis.alexandre/
通过包容性数字档案使马里耶瓦尔印第安寄宿学校档案文件可访问 (Making Marieval Indian Residential School Archival Documents Accessible Through an Inclusive Digital Archive): https://gorgeous-blancmange-abbf90.netlify.app/
Museion AI阅读器 (Museion AI reader): https://en.museion.me
奥纳西斯数字展览与虚拟图书馆导览 (Onassis Digital Exhibitions and Virtual Library Tour): https://exhibitions.onassis.org/ 和 https://librarytour.onassis.org/
像男人一样：莎士比亚马裤表演目录 (Points Like A Man: The Shakespearean Breeches Performance Catalogue): https://pointslikeaman.com
Post45数据共同体 (Post45 Data Collective): https://data.post45.org/
初学者实用招魂术 (Practical Necromancy for Beginners): https://thedigitalpress.org/practical-necromancy-for-beginners/
Ñeatá数字学术期刊，专攻符号学、社会话语性和话语分析（GESEM；SGCyT-UNNE，阿根廷）(Revista digital académica Ñeatá, especializada en Semiótica, discursividad social y análisis del discurso (GESEM; SGCyT-UNNE, Argentina)): https://revistas.unne.edu.ar/index.php/nea
被偷走的关系：找回美洲原住民奴役的故事 (Stolen Relations: Recovering Stories of Indigenous Enslavement in the Americas): https://stolenrelations.org/
意大利数字项目地图集 (The Atlas of Italian Digital Projects): https://dh-atlas.github.io/
漫画书焚烧项目 (The Comic Book Burnings Project): https://storymaps.arcgis.com/stories/7deec3e3e8da4517907d266faccd2323
虚拟约翰·多恩项目 (The Virtual John Donne Project): https://virtualdonne.chass.ncsu.edu/
自然与文化的宝藏——南京博物院应用程序 (Treasure of Nature and Culture Nanjing Museum_Application): https://vr.njmuseum.org.cn/index.html
历史记忆的数字化：近卫第11集团军司令部（1945年）虚拟重建 (Цифровизация исторической памяти: виртуальная реконструкция штаба 11-й гвардейской армии (1945 года) (Digitalization of Historical Memory: A Virtual Reconstruction of the 11th Guards Army Headquarters (1945))): http://11-ga.ru/
世界文献遗产丝绸档案数字保护与传承平台 (World Documentary Heritage Digital Protection and Inheritance Platform for Silk Archives): http://silkmemory.dag.suzhou.com.cn/

数字人文娱乐化应用

（例如：以娱乐为目的应用数字人文的项目）

第一名
图钉故事

(Pin the Tale)

https://pinthetale.co.uk/

第二名
Gamaikus

https://yohannawaliya.itch.io/gamaikus

第三名
中国艺术史与3D绘画电子学习平台

(E-Learning Platform of Chinese Art History and 3D Paintings)

https://digital.lib.hkbu.edu.hk/history/3d-paintings/index.html

其他提名项目（按字母顺序排列）：

在古根海姆 (At the Guggenheim): https://webyarns.com/at/at.html
一个 wretched 生成器 (A Wretched Generator): https://electricarchaeology.ca/2025/10/22/a-wretched-generator/
纽约市旋转木马 (Carousels of NYC): https://www.carouselsofnyc.com/
DHmakes Bluesky话题标签 (DHmakes Bluesky hashtag): https://bsky.app/profile/literaturegeek.bsky.social/feed/aaadokeexl2vo
DH氛围编程降临节日历 (DH Vibe Coding Advent Calendar): https://advent-calendar.humanities.tools/
HistoryScapes应用程序 (HistoryScapes app): https://historyscapes.uk/
徽章机 (Machina Emblematica): https://machina.rainersimon.io
来自1493年世界地图的故事：玩转增强现实 (Tales from a 1493 World Map: Playing with Augmented Reality (AR)): https://library.hkust.edu.hk/ds/project/p004/map/
疯狂厨师奇谭：一个关于贝尔·格里尔斯的有趣数字人文项目 (The Mad Chef’s Bizarre Tales: A Fun Digital Humanities Project on Bear Grylls): https://nkwuyanzu.github.io/Beye/
虚空永生：沉浸式体验 (Vanitas Lives. Immersive Experience): https://sites.google.com/tec.mx/vanitasvive/
与霍尔同行 (Walking with Hall): https://uploads.knightlab.com/storymapjs/9ce75a46676e87d25a174e399afb31e8/test-nino/index.html
《故宫三部曲》人工智能艺术大展 (The Palace Museum Trilogy: Artificial Intelligence Art Exhibition): https://mp.weixin.qq.com/s/EGfFUAdpcz4XzWxgeYSWug

以上信息来自“DH Awards 2025”官方网站：
http://dhawards.org/dhawards2025/results/

经数字人文资讯小编翻译整理而成
未经许可请勿转载

编辑 | 罗斯鹏

校对 | 魏翔

排版 | 洪冰凤

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

江苏首部AI实验电影《东坡买田》在宁率先面世

2026年4月28日 09:00

徐惠 2026-04-28 09:00 江苏

江苏首部AI实验电影《东坡买田》在南京发布，融合AI与东方美学讲述苏轼故事。

转载自“章剑华人文空间”

4月22日下午，由江苏省当代艺术创作研究会指导、立早AI艺创实验室出品、章剑华担任编剧并导演的江苏首部AI实验电影《东坡买田》，在南京图书馆学术报告厅举行了发布仪式。

该片以北宋文豪苏东坡阳羡买田的历史故事为蓝本，运用人工智能技术进行影像化创作，探索AI技术与东方美学的全新融合路径。

原南京军区司令员朱文泉上将，省政协原副主席、南京艺术学院原校长冯健亲，省委宣传部原常务副部长、省文联名誉主席、省艺研会会长章剑华，省委宣传部一级巡视员、省电影局原副局长王明珠，南京艺术学院党委书记俞锋，南京传媒学院党委书记周南平，南京师范大学党委常委、副校长程天君，省广播电视总台副台长王智勇，省文旅厅原副厅长、原一级巡视员方标军，省文联原副主席、原一级巡视员刘旭东，省文联原副主席徐昕，南京图书馆原党委书记韩显红，南京博物院原党委书记嵇亚林，《新华日报》原副总编辑金伟忻，省文化发展基金会理事长姜龙等领导以及来自省内相关文化单位、高校的嘉宾近百人出席了发布仪式。

章剑华讲话

章剑华现场分享了对人工智能的认识，指出它深刻影响了人类文明演进的方方面面，深刻改变了社会生产模式与大众生活方式，更彻底革新了文艺创作、文化传播、艺术表达的传统路径与固有形态。他向大家介绍了艺创实验室率先开展多领域AI文艺创作实验的诸多成果，迄今先后创作了AI曲目20余首，推出《故宫三部曲》AI艺术大展，打造AI有声图文剧《永不沉默的胶片》，以及今日发布的AI实验电影《东坡买田》。章剑华详细交流了影片的创作经过及制作感受。同时透露出艺创实验室下一步的发展构想，表示将始终坚守文化初心、深耕文艺创作、拥抱科技变革，持续探索AI与传统文化、文学艺术深度融合的新路径。

观看影片

刘旭东作点评

观看影片后，著名评论家刘旭东进行了专业点评，指出《东坡买田》开创了省内AI微电影创作的先河，是电影艺术与人工智能技术深度融合的一次重要探索。影片不仅生动再现了苏东坡“焚券还田”的感人故事，更在技术层面验证了AI生成影片的可行性。从这个意义上说，这部影片的探索意义大于作品本身。

剧照

据介绍，该部《东坡买田》影片从剧本定稿到成片，历时近三个月，立早AI艺创实验室团队从AI生成的3000余帧视频片段中，精选出130余帧进行合成剪辑。影片中苏东坡、朝云等主要人物形象均通过AI反复训练，力求在符合历史服饰特征的同时，传达出人物特有的精神气质。在场景设计方面，团队参考了大量宋代绘画与江南水乡实景，并借助AI技术，最终营造出了“远山青翠、近水波光”的水墨意境。

剧照

据了解，AI实验电影《东坡买田》不久将在国内重要平台播出。届时预告，敬请观看。

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

好文推荐丨袁毓林：语言大模型怎样突破标记逐个生成的时间瓶颈？——预测从单标记走向多标记，模型从自回归走向扩散式

2026年4月27日 09:00

袁毓林 2026-04-27 09:00 江苏

袁毓林探讨语言大模型由单标记转多标记、自回归走向扩散式以提速。

转载自“语言学札记薄”

好文推荐

语言大模型怎样突破标记逐个生成的时间瓶颈？——预测从单标记走向多标记，模型从自回归走向扩散式

《当代修辞学》 2026年第2期

关键词：（自回归/扩散式）语言大模型；单标记/多标记预测；噪声/掩码去噪

提要

本文从当前人工智能若干关键技术发展趋势的角度，讨论人工智能的未来走向及其对人类生活的影响。本文首先介绍语言大模型怎样通过不断地预测下一个“标记” （token），来理解和生成自然语言并诞生智慧的机理和过程；接着说明这种“单标记预测”的技术困境和时间瓶颈，进而介绍通过并行的推测解码来达成“多标记预测” （Multi-Token Prediction，MTP）的技术原理和实现过程；然后说明单标记和多标记预测等“自回归（autoregression）模型”的局限性，介绍在速度与效率等方面更有优势的“扩散式语言大模型”（dLLM），说明其从噪声（掩码）到结构化输出（去噪）的生成过程和工作机理；最后介绍杨立昆对于语言和语言大模型的局限性的批评意见，说明我们的观点：由于人类对世界的认识依赖于语言，所以从语言大模型走向“通用人工智能”（AGI）依然具有可能性。

全文