普通视图

Received yesterday — 2026年6月14日12 - 南京师大比特人文公众号

福利公布|袁毓林《ChatGPT 和语言学的梦醒时分》赠书名单来啦

2026年6月14日 00:00

徐惠 2026-06-14 00:00 江苏

《ChatGPT 和语言学的梦醒时分》赠书名单来了!恭喜获赠读者!

袁毓林 著

商务印书馆

2026年5月出版

前言

2022 年底 ChatGPT 横空出世,不仅让人工智能走进了普通人的生活,更在语言学界掀起了一场前所未有的震动。

当机器能流畅地听懂人话、说出人话,甚至写出逻辑通顺的文章时,一连串尖锐的问题摆在了所有语言学者面前:语言还是人类独有的能力吗?我们研究了几十年的语言学理论,为何没能指导大模型取得这样的突破?站在数字工业革命的十字路口,语言学该往何处去?

这些问题,袁毓林教授在新书《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》中给出了系统且深刻的回答。

中奖名单

截至2026年6月13日24:00,《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》赠书活动已正式圆满结束!非常感谢大家踊跃参与转发、留言,积极分享自己对于语言大模型与语言学发展的见解,每一段留言,都让我们看到学术思考在公共讨论中的温度与力量。

根据活动规则:关注本公众号、转发本文至朋友圈,且单条评论点赞数达到 80 及以上的读者,按评论点赞达标时间的先后顺序,前 5位读者即可获得由商务印书馆出版、袁毓林教授所著的《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》实体书一本。现将获奖名单(微信昵称)公示如下:

@Everleaf

@冰凌冽

@李老师

请以上获奖读者于2026年6月16日24:00前在私信本公众号,提交朋友圈转发截图,并留言告知您的“姓名+手机号+收件地址”,我们将严格保密信息,仅用于寄送奖品。注:逾期未联系或无法提供有效转发截图者,视为自动放弃获奖资格。

没有中奖的朋友也请不要失望。袁毓林教授《ChatGPT 和语言学的梦醒时分》一书已在京东、当当等平台正式上架,无论你是语言学研究者、AI 从业者,还是对大模型本质好奇的读者,这本书都能为你打开一扇跨学科的窗口。

另外,“比特人文”后续还将持续推出优质学术新书赠阅、前沿讲座直播、青年学者对谈等活动,欢迎保持关注,期待下一次与你在评论区相遇。

= END =

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Received before yesterday12 - 南京师大比特人文公众号

詹卫东 | 语料库的尽头是什么?

2026年6月13日 00:00

徐惠 2026-06-13 00:00 江苏

本文探讨语料库发展,主张走知识驱动、人机协同的精细化发展路径。

转载自“汉语堂”

引用方式:方梅,詹卫东,陈玉东,饶高琦,关越.“数智时代汉语语料库建设与应用”多人谈[J].辞书研究,2026,(3):43-57.

语料库的尽头是什么?

詹卫东(北京大学中文系)

过去半个世纪以来,语料库在持续的规模扩张(eTenTen网络英语语料库Sketch Engine已达到520亿单词规模,见https://www.sketchengine.eu/ententen-english-corpus/。大规模网络爬虫项目Common Crawl自2008年启动以来,截至2025年10月,已累积超过8500TB(万亿字节)的网页数据,见https://commoncrawl.org/。)中已然成为AI的“基础设施”,但规模更大并不必然带来更深的认知。语料库的发展方向取决于语言学的使命。若语言学以解释人脑的内在语言能力为根本任务,语料库建设就不应停留在外部语言的数量堆积,而应面向内部语言建模,将语言学洞见转化为可诊断、可训练的小规模精细化任务型语料库,并探索人机协作机制,将专家创新能力与AI工程技术优势相融合。

一、语言学的使命

语言学的核心使命无疑是阐释人类语言现象背后的底层逻辑。然而,对于底层逻辑的不同理解,将当代语言学划分为长期对立的两大阵营。

以乔姆斯基为首的生成语言学派将语言学的使命视为对人类心智生物属性的探寻。其演进脉络清晰:首先是以递归文法表征语言系统的无限生成性,完成了语言学技术层面的形式化转型;随后研究视野从语言表现转向对语言能力的聚焦,以“解释充分性”为语言学的最高追求;继而将“内部语言”(I-Language)确立为核心研究对象,语言学使命彻底转向人脑认知的内部语言建模;最终,生成语言学派将人类语言的普遍语法机制置于生物学与自然法则的最优设计视角下审视,语言学的使命也随之升华为在生物语言学框架内揭示人类物种特有的语言自然属性。(Chomsky1957,1965,1986,1995)跨越四十年的理论跃迁,将语言学推向终极之问:为何只有人类会说话?

功能主义、构式语法、社会语言学等非乔姆斯基阵营则认为,语言学的使命不应被禁锢在假想的孤立的语言心智模块中,而应通过语言的社会交际功能来探究其本质。不同于生成学派对先天机制的执着,非乔姆斯基阵营更侧重研究语言作为一种社会契约与交际工具的动态适应性。语言学因此被定义为解释“语言如何在使用中演化”的科学。

让语言学人尴尬的是,语言学各大门派还没争清楚语言学的圣杯到底是什么,大语言模型(LargeLanguageModel,以下简称LLM)就已甩出了第三种可能:人类语言或许可以脱离人而存在。靠算力与数据驱动,LLM首次在非生物载体上涌现出类人语言行为能力。这不仅是对传统语言学使命观的冲击,更预示着语言学可能要包含对这种非生物语言智能的剖析。

二、语料库的地位

语言学不同门派关于语言学使命的观念差异,直接导致了语料库地位的天壤之别:有人视语料库为探寻语言真理的噪声,有人视语料库为揭示语言奥秘的最佳实验室。

在乔姆斯基眼中,即便语料库规模再大,它也只是有限且带有偶然性的句子集合。他反复批评把研究目标限定为从语料中抽取模式的描写主义取向,认为这种只做分类与整理的工作,会妨碍对语言机制与原则进行解释的根本追求。他也将这样的批评指向统计式AI和LLM:更多的数据与更强的统计只是让系统更好地拟合文本分布,并未能触及人类心智中作为核心生成机制的“内在语言”。(Katz2012;Chomskyetal.2023)在乔姆斯基阵营,语料库仅被视为验证形式规则的次要证据,而语言科学的主要证据则应依赖结构化的最小对比材料、母语者可接受性评价及受控实验的设计与解释。

与之相反,非乔姆斯基阵营与人工智能领域都把语料库视为语言规律的“原矿”,认为语言规律能在真实使用中自然涌现,大规模语料能揭示个体直觉难以覆盖的频率、搭配信息与语用约束。(Sinclair1991;Tomasello2003)LLM通过海量语料训练获得通用语言处理能力的事实也进一步强化了这种立场:离开先验规则,仅凭大规模语料与恰当的学习算法,也能在工程上重构出高性能的语言模型。

三、解释优先与预测优先

上述语料库地位之争,其实是解释优先与预测优先两种科学文化的交锋在语言学领域的缩影。(Breiman2001;Norvig2011)前者更看重“知其所以然”(Know-why),后者更看重“知其然”(Know-how)。经典科学观认为,更好的解释会带来更好的预测。但在面对像自然语言这样的复杂现象时,这一信条常常失灵。语言学简洁优美的解释并不能转化为机器的预测能力。相反,基于海量语料和蛮力计算训练出来的LLM,却涌现出惊人的语言处理能力,而其缺少科学解释的缺陷在“能干”的光环下变得无足轻重。

Know-how先行而Know-why滞后,将整个科学界推到了十字路口:若捍卫解释优先,则能力有限;若向预测优先妥协,人类又难放心拥抱“黑盒AI”。

著名的“章鱼实验”直观地表达了语言学者的担忧:能说会道的AI缺少把符号与世界对接的语义锚定之道,AI的“能干”就很难安全外推到开放环境与高风险任务。(Benderetal.2020)无论语料库规模如何扩展,统计相关性终究无法提供只有科学因果性才能带来的扎实的安全感。

四、由知识驱动而内外对齐

在1991年第82届诺贝尔研讨会上,菲尔墨用“拍脑袋语言学”(armchairlinguistics)与“语料库语言学”(corpuslinguistics)对比,幽默地调侃了两大阵营之争。(Fillmore1992)他给出的和解方案是“计算机辅助的拍脑袋语言学”(computer-aidedarmchairlinguistics)。

这个思路在LLM时代仍具指导意义。单靠海量数据很难全面反映人类灵活的认知能力。比如,LLM不理解“面前”和“身后”在汉语的空间表达中其实可以指同一个方位,也不知道“连博士毕业生今年找教职工作都很困难”无法用于回答“博士毕业生今年找教职工作困难吗?”(詹卫东2025)。为此,我们亟需构建高质量的精细化任务型语料库。它不同于传统的标注语料,而是在语言学知识的指导下,通过改写与合成,构建正误对立、问答句对、推理过程等形式的自然文本,把空间关系、构式用法这样的复杂认知与领域知识,融入以自然文本为载体的交互任务中。

这意味着语料库构建方法要从“数据堆叠”进化到“知识蒸馏”。具体而言,应探索“专家指导+LLM辅助”的协作模式。人类专家负责任务定义、知识约束与质量控制,LLM负责任务落实与数据增强。以中介语语料为例,可先由LLM自动识别偏误并修改,形成“中介语-目标语”的初步对齐后再由专家审核,(我的博士生周子茗用Deep Seek-V3.2对865篇汉语中介语作文(420706字)进行自动批改的实验:模型作业速度为每分钟3392.79字,精确率86.29%、召回率87.73%、F1综合分87.01%。计算标准以句子为单位,即模型识别出的中介语错误如果跟标准答案在同一个句子中就算成功,否则就算失败。)从而以较低成本将凌乱的外在语言表现(E-language)转化为具有高解释价值的训练语料资源,帮助模型实现从“分布拟合”向“逻辑诊断”的能力跨越。

探讨“语料库的尽头是什么”,并非在物理极限的意义上考虑数据规模,而是追问语料库作为外部语言的集合,能否实现与人脑内部语言的真正对齐。这种显然极度复杂的对齐关系,或许可以借用素数外延与内涵的集合表征来直观呈现,详见表1:

正如素数集合可以从无限的数字罗列压缩为一行有限的简洁算式,语言学的使命与AI的目标,都是要将潜在无限的“外部语言”数据,压缩为可计算、可重复验证的“内部语言”模型。因此,语料库进阶之路的本质应是知识累积,而不只是数据堆砌。从这个意义上讲,语料库的尽头,便是它作为外延数据的使命终点:它要么说明存在从观测工具到解释系统的质变途径,要么说明内涵与外延的对齐只是一厢情愿的逻辑幻梦。

今日责编:甜瓜

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

【预告】古籍数智化研究的现状与未来工作坊

2026年6月12日 19:12

徐惠 2026-06-12 19:12 江苏

中山大学6月13日举办工作坊,研讨古籍数智化发展现状与未来方向。

转载自“中山大学数字人文联合研究院”

古籍数智化的迭代前行,亟需扎根资源建设、技术研发与人文研究的实践场域,方能明晰发展脉络、锚定未来方向。对古籍数字人文的深耕探索,不仅是技术赋能中华典籍保护传承的创新实践,更是传统学术研究范式向数字化转型的关键突破。它要求我们跳出单一技术应用的局限,融通数据、技术、平台与人文思辨,在古籍整理、文脉赓续与学术研究的真实场景中,重塑数字技术与古籍研究的深度共生关系。

中山大学人文高等研究院与中山大学数字人文联合研究院将于2026年6月13日联合举办“逸仙高研工作坊”第38期,议题为“古籍数智化研究的现状与未来”,中山大学数字人文实验室,中山大学图书馆共同协办。该工作坊将汇聚该领域资深专家与青年学者,围绕古籍数字平台建设、大模型赋能古籍整理、碑刻文字数字化复原、古籍数据库与目录体系构建、海外汉籍流传递藏可视化等核心议题展开专题报告与深度研讨,共探古籍数智化的实践路径与未来图景。

会议议程

时间2026年6月13日

地点:中山大学学人文库

6月13日上午

8:50-9:00 主办方致辞

主持人:李 伟(国家图书馆研究馆员)

    孙显斌(中山大学人文高等研究院特邀访问教授、中国科学院自然科学史研究所研究员)

9:00-9:25 古籍与特藏资源数字人文平台建设探索

王 蕾 中山大学图书馆副馆长、数字人文实验室主任

9:25-9:50 数字人文实验室建设的三驾马车:数据、技术和团队

朱翠萍 古联公司总编辑

9:50-10:15 科技助力古籍保护与传承

张明月 抖音集团企业社会责任部古籍项目经理

10:15-10:30 茶歇

10:30-10:55 古籍语料库的构建与应用(线上)

李 斌 南京师范大学文学院教授

10:55-11:20 大、小语言模型在古籍整理与研究中的应用思考(线上)

胡韧奋 北京师范大学中文信息处理研究所副教授

11:20-11:45 千年碑刻残缺文字数字化复原:基于统一多模态大模型的端到端新方法

金连文 华南理工大学电子与信息学院教授

6月13日下午

主持人:范常喜(中山大学中国语言文学系副主任、教授)

    蔡一峰(中山大学博雅学院、数字人文联合研究院副教授)

14:00-14:25 中国古籍数据库资源建设的现状与展望

侯君明 广西师范大学出版社(北京)有限公司副总经理

14:25-14:50 中国历代典籍目录总库的建设

孙显斌 中山大学人文高等研究院特邀访问教授、中国科学院自然科学史研究所研究员

14:50-15:15 面向中国自主知识体系构建的古籍智能目录研究

石 进 南京大学信息管理学院教授

15:15-15:30 茶歇

15:30-15:55 清华大学典津系统第二期进展报告

唐 宸 清华大学人文学院、清华大学中华传统文化智能实验室副教授

15:55-16:20 战国文字诂林数据库的进展

林焕泽 中山大学历史系博士后

16:20-16:45 基于“助校”平台的历史文献数字化整理疑难问题解决实践

李寒光 武汉大学文学院副教授,武汉大学文化遗产与智能计算实验室兼职研究员

16:45-17:10 海外汉籍流传递藏的可视化建设

李林芳 北京大学中文系助理教授

17:10-17:30 讨论与总结

参加须知

由于场地限制,请扫描下方的二维码填写报名信息,我们将在6月12日17:00前发送报名结果至所填写的邮箱。请尊重版权,请勿录音、录像或以任何形式在未经许可的媒介传播。

内容来源:中山大学人文高等研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

国家数据局关于印发《关于推进行业高质量数据集建设行动的实施方案》的通知

2026年6月11日 18:53

徐惠 2026-06-11 18:53 江苏

国家数据局印发方案,部署六大行动,推进高质量数据集建设赋能人工智能发展。

转载自“国家数据局”

国家数据局关于印发《关于推进行业高质量数据集建设行动的实施方案》的通知

国数科基〔2026〕25号

各省、自治区、直辖市及新疆生产建设兵团数据管理部门:

现将《关于推进行业高质量数据集建设行动的实施方案》印发给你们,请认真组织实施,加快推进相关工作。

国 家 数 据 局

2026年6月3日

关于推进行业高质量数据集建设行动的实施方案

行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。为落实国民经济和社会发展“十五五”规划《纲要》,深入实施“人工智能+”行动,推动行业高质量数据集建设推广与“人工智能+”同频共振、互促共进,强化数据赋能人工智能创新发展,制定本方案。

一、总体要求

以习近平新时代中国特色社会主义思想为指导,深入贯彻党的二十大和二十届历次全会精神,全面落实“人工智能+”行动,主动顺应人工智能发展范式跃迁,按照“需求牵引、急用先行、应用验证、安全保障”原则,聚焦国民经济发展重点行业和战略性新兴产业,围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”,加快构建数据要素与人工智能协同演进的共生生态。

到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。数据从供给到价值释放的良性循环基本形成,数据赋能人工智能创新发展的作用更加凸显,数据产业与人工智能深度融合,持续催生智能经济新增长点。

二、实施强基扩容行动

顺应人工智能加速向行业渗透,从对话向多模态生成、决策执行、具身智能、物理交互等范式跃迁的趋势,拓宽数据供给渠道,丰富数据供给类型,加快建设行业高质量数据集,为人工智能发展和应用提供充足“燃料”。

(一)聚焦行业领域推进高质量数据集建设。聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源、社会信用等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。

(二)夯实行业高质量数据集建设基础路径。梳理行业数据资源底数和应用场景,建立数据资源清单和数据集需求清单。以应用为牵引,持续推进行业高质量数据集建设先行先试,加快形成一批可复制、可推广的数据驱动型示范场景。强化链主单位牵引带动作用,支持链主单位以联合体等形式推动产业链上下游协同共建和资源整合,持续扩大行业高质量数据集供给规模,鼓励链主单位面向行业开放数据集并提供数据服务,赋能产业链上下游中小企业。鼓励高等院校、科研院所、行业协会、数据流通服务机构、第三方专业服务机构等各类主体参与行业高质量数据集建设。加大公共数据资源开发利用力度,推动公共数据与行业数据融合利用,建设一批高质量数据集。

(三)面向人工智能应用需求丰富行业高质量数据集建设形态。持续推进文本、代码、图像、音频、视频、点云、时序数据、科学数据等多模态高质量数据集建设,赋能人工智能预训练、指令微调、强化学习、测评等各阶段。加强知识库、知识图谱、本体等数据集建设,加快复杂任务规划、长程推理、人机交互、决策执行等数据集建设,赋能智能体等新型智能应用形态。加快重点场景物理交互、环境感知、运动控制等真机交互数据集建设,积极应用仿真模拟与合成技术扩大数据供给,赋能具身智能发展。积极面向世界模型等前沿方向,推进数据集建设。

(四)强化与数据基础设施建设有机联动。鼓励依托国家数据基础设施,充分运用隐私保护计算、可信数据空间等能力,开展数据集安全存储、可信流通、高效应用,推动数据集从分散持有向集约化、标准化供给转变。鼓励探索建设支撑大规模、多模态数据集的数据基础设施存力中心。

三、实施标注攻坚行动

数据标注是将知识和经验注入到训练数据的过程,是行业高质量数据集建设不可或缺的关键环节。引导数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。

(五)推动数据标注转型升级。加强数据标注领域科技创新,强化自动化工具和平台的研发与应用,发展“模型预标注+人工校准”“人工标注+模型检验”“模型预标注+模型检验”等智能化标注服务,全面提升数据标注水平。发展专家型数据标注服务,建立行业专家认证机制,推动专家深度参与指令微调、强化学习等阶段所需的专业知识标注,生产领域知识、逻辑推理等高质量数据集,提高数据集的知识密度与专业价值。

(六)持续推动数据标注先行先试。指导首批七个承担数据标注先行先试任务的城市,持续做强做深数据标注产业。面向创新能力强、发展基础好、产业特色优的地区,梯次布局一批数据标注创新试验区。有序引导具备条件的地区因地制宜开展试验区建设,促进数据标注产业链上下游紧密协同,形成产业集聚效应。培育一批数据标注龙头企业、独角兽企业、瞪羚企业,壮大数据标注产业。

(七)扩大数据标注人才供给。支持有条件的院校增设数据标注相关课程,依托产教融合、校企协同等方式,培育具备专业知识的数据标注人才。鼓励开展数据标注职业技能等级认定,强化继续教育与在职培训,畅通人才发展通道。完善分层分类人才评价体系,建设专职与兼职相结合的专业标注人才队伍。鼓励高校毕业生等群体参与标注工作,通过灵活就业、项目协作、多元岗位供给等方式,扩展就业渠道。

四、实施提质增效行动

推动构建符合结构完整性、内容多样性、标注准确性、模型适配性等质量标准、满足人工智能就绪(AI-Ready)的高质量数据集,降低训练推理成本,有效提升模型性能。

(八)提升行业高质量数据集建设质效。加强数据清洗、增强、标注、对齐、质检等关键技术攻关和全过程自动化工具研发应用,支撑高效率、高标准构建行业高质量数据集。针对行业特定应用场景,鼓励运用数据智能过滤与配比等技术,构建更精、更强的高知识密度数据集,降低训练推理成本。发挥数据合成在数据集建设中的积极作用,利用模型、仿真系统等生成的数据,解决稀缺场景数据集构造难、真实场景数据采集成本高等问题。

(九)推动高质量数据集标准体系建设和应用落地。加快推进高质量数据集格式、类型、标注、质量测评等相关国家标准研制、应用验证和贯标,健全高质量数据集标准体系。鼓励各行业、各地方与国家标准联动,推动重点行业领域高质量数据集标准研制。加强在产业政策、政府采购、招投标中引用相关标准,引导产业执行高水平标准,用好检验检测等手段推动标准实施,促进高质量数据集规范化建设。

(十)强化高质量数据集质量测评和结果互认。持续完善“数据质量验证+模型应用反馈”的测评方法,加快建设覆盖多行业、多场景、多模态的测评数据集,有效评估高质量数据集应用效果。发起高质量数据集测评联合行动倡议,推动相关单位按照标准,采用统一测评方案和工具开展测评和封装工作,实现“一次测评、全国互认”。

五、实施应用赋能行动

坚持行业高质量数据集建设与实际应用深度融合,以模引数、用数赋模,促进高质量数据集建设与“数据要素×”“人工智能+”同频共振,全面赋能产业数智化转型。

(十一)打造“数据飞轮”应用闭环。以模型应用牵引数据供给、以数据赋能模型迭代,推动形成“场景—数据—模型”协同发展的良性循环。发挥“人工智能+”场景牵引作用,推动数据供给和场景的精准匹配,以用促建,以实际需求吸引更多数据资源汇聚,推动行业高质量数据集有效供给和持续优化。结合“数据要素×”行动,深化行业高质量数据集建设,以建促用,充分利用模型应用产生的动态交互数据等,驱动行业模型能力持续提升。

(十二)打造行业应用标杆和典型案例。着力打造集“数据集生产加工和流通利用、支撑模型训练应用”于一体的数据赋能工场,打造一批行业标杆,加速人工智能应用落地。打造一批数据赋能智能体解决实际问题的典型案例,推动高质量数据集规模化应用。

(十三)繁荣数据集协同发展生态。加强统筹协调,强化部门联动,分行业分领域有序推进高质量数据集建设和应用。搭建“政产学研用金”多方交流平台,形成共建共享、互利共赢的产业生态,破解“数据孤岛”“数据烟囱”。常态化举办供需对接活动,提升供需匹配效率,促进实质性合作落地。组织遴选行业高质量数据集建设和应用典型案例,发挥行业示范引领作用。支持举办行业高质量数据集创新赛事活动,以赛促建、以赛促用。深化国际交流合作,建立健全数据集跨境安全有序流动机制,推动跨境流动规则互认,鼓励行业高质量数据集建设主体积极参与全球数据生态建设。

六、实施管理服务行动

加强数据集管理,完善数据伦理和治理机制,推动落实数据权益相关制度,推进数据集建设体系更加规范有序。

(十四)构建数据集全生命周期的管理体系。加强覆盖数据采集、清洗、加工、标注、质检、测评、迭代、审计等全生命周期的数据集管理服务能力建设,依托数据基础设施,强化隐私保护计算、区块链等技术应用,确保数据可管、可控、可追溯。建设“物理分散、逻辑集中”的国家数据集管理服务系统,实现数据集目录、供需等信息互联互通。支持各地方、行业依托国家系统设置专区,支持已有系统与国家系统对接。

(十五)探索面向人工智能发展的数据相关制度。落实数据持有权、使用权、经营权三权分置制度。研究合成数据等新情况新问题。兼顾产权保护与创新发展需求,完善人工智能训练阶段数据使用规则,推动版权作品数据等有序用于模型训练,完善数据授权使用机制和收益分配规则,打造权责清晰、合规包容的制度环境。

(十六)坚持伦理先行与公平普惠。研究探索高质量数据集伦理道德规范,坚持有益社会的价值导向,严禁非法收集或使用敏感数据。防范数据集建设全流程产生数据偏见与歧视,充分考虑社会各界多元需求,最大限度确保数据集建设成果惠及全民。

七、实施价值释放行动

发挥数据集的应用价值,以行业高质量数据集赋能人工智能发展。释放数据要素价值,推动数据集商业化、资产化,培育为数据付费的市场共识,探索以词元(Token)为基础的价值体系。

(十七)发挥行业高质量数据集的应用价值。建立数据集和模型需求对接机制,推动行业高质量数据集和模型精准适配,提高模型质量和效率,深度赋能行业发展。推动行业高质量数据集跨行业、跨领域、跨场景融合利用,鼓励“以数换数”“数模互换”“数据托管”“数算一体”等多种应用模式。积极参与开源社区建设,鼓励中介机构、公益机构将基础性、公益性数据集作为公共产品向社会公开,激发用数活力。

(十八)创新行业高质量数据集商业模式。完善数据集长效运营机制,鼓励数据集在数据交易所(中心)等数据流通服务机构挂牌交易,发展“订阅模式”“商场模式”“定制模式”等多元服务形态,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升。探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据价值体系。

(十九)探索行业高质量数据集资产化创新路径。鼓励有条件的单位率先探索开展数据集资产盘点、登记、评估等试点工作,为数据资产化积累可复制、可推广的经验。鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化创新模式,拓宽数据价值转化渠道。

(二十)培育为高质量数据付费的市场共识。建立健全市场化利益分配机制,确保数据供给、加工、流通、应用等各环节主体均能获得市场化价值回报,共享数据红利。鼓励数据需求方通过购买、合作等形式加大投入,充分发挥政府部门、国有企业、模型企业等单位的示范引领作用,推动数据采买纳入预算编制,率先开展数据采购实践,带动形成数据有偿使用市场共识,构建健康可持续的数据市场生态。

八、保障措施

国家数据局发挥统筹协调作用,会同有关部门协同推进高质量数据集建设与应用,构建“部门协同、领域联动”的工作格局。各地要落实属地管理责任,加大组织实施力度,避免一哄而上,防止同质化、低水平重复建设,结合实际制定配套措施,统筹安排数据产品和服务采购经费,用于支持行业高质量数据集建设。支持各类主体以应用为牵引,积极开展和参与行业高质量数据集建设。引导金融机构、耐心资本、产业基金等,加大对行业高质量数据集建设的投资力度,鼓励地方设立专项资金,探索多元化、多渠道投入机制。鼓励在依法依规、风险可控前提下开展创新探索。持续跟踪行业高质量数据集建设工作,完善监测指标,评估建设和应用成效,阶段性总结经验。强化安全保障,落实数据安全相关法律法规要求,建立全流程安全治理机制,防范数据投毒与污染、数据泄露等安全风险,守牢数据安全底线。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

论文 | 江荻 孟雯《从阿尔泰语系到泛欧亚语言:传统谱系分类与算法聚类》(扩展版本)

2026年6月10日 00:00

江荻、孟雯 2026-06-10 00:00 江苏

本文运用聚类实验开展语言对比,否定乌拉尔-阿尔泰、泛欧亚语言假说,并提出蒙-满语系存在的新观点。

作者简介

江荻,博士,中国社会科学院民族学与人类学研究所研究员,现任江苏师范大学语言科学与艺术学院教授,中国中文信息学会计算语言学专业委员会委员。工作领域为历史语言学、汉藏语言学、计算语言学。主要代表作有《最早的汉语——甲骨文之前的汉语样貌》《藏语词法和形态》《汉藏语言演化的历史音变模型——历史语言学的理论和方法探索》《藏语语音史研究》等。

孟雯,人民教育出版社博士后,副编审。主要研究方向为汉藏语言学、现代汉语语法、语文教育,发表学术论文十余篇。

推荐语

这篇论文发表在2026年第2期的《当代语言学》上,因篇幅问题,未能对其宏大背景展开论述。本文作为扩展版本,更为完整地论证了语言学界百年未解的核心争议:阿尔泰语系到底是否存在?

作者跳出传统语言学 "凭经验判断" 的局限,开创性地将生物学进化研究的量化方法引入语言分类,用数学计算客观衡量上百种语言的亲缘关系。通过严谨的对比实验,文章从数据层面有力挑战了 "乌拉尔 - 阿尔泰语系"" 泛欧亚语言 "等广为流传的假说,同时提出了" 蒙 - 满语系 " 的新可能。它不仅刷新了我们对欧亚语言演化的认知,更展示了跨学科量化方法在人文研究中的巨大潜力,为跨语言研究提供了极佳的方法论范例。

论文正文

原文链接:https://chinaxiv.org/abs/202604.00219V1

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

王璐璐|述结式的事件结构与情状语义分析

2026年6月9日 00:00

徐惠 2026-06-09 00:00 江苏

该文剖析述结式语义差异,探究其事件结构、情状语义及语用成因。

转载自“语言学札记簿”

述结式的事件结构与情状语义分析

王璐璐

《汉语学报》 2026年第2期

 关键词:述结式;事件结构;情状类型;蕴涵;意愿

图片

图片

提要

       为了厘清述结式表示实现还是偏离的语义差异,本文在事件语义学的框架下分析述结式的事件结构和情状语义,说明了词汇语义与构式语义在述结式中的互动关系,并揭示出造成语义差异的语用动因。文章首先根据子事件之间是否具有蕴涵关系和使役关系归纳出四种事件语义类型。蕴涵关系由词汇语义决定,使役关系由构式语义决定,二者在句法上表现为不同的搭配限制,以及上下文中的事件概率。而说话人对事件概率的主观评价是造成语义差异的语用动因。常规语境下,预期由词汇语义的蕴涵关系决定,话主意愿和话者意愿同一时为实现义,不同一时为偏离义。特殊语境下,预期由说话人的主观评价决定,句子的表达是有标记的,要求话主意愿和话者意愿是同一的。

图片

图片

论文全文

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

注:本文原载于《汉语学报》2026年第2期。

今日责编:双玉酝

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

重磅新书 | 袁毓林《ChatGPT 和语言学的梦醒时分》(赠书活动)

2026年6月7日 13:01

徐惠 2026-06-07 13:01 江苏

语言大模型对语言学的挑战与启示!文末有粉丝福利!

(文末有福利哦!🎉)

袁毓林 著

商务印书馆

2026年5月出版

前言

2022 年底 ChatGPT 横空出世,不仅让人工智能走进了普通人的生活,更在语言学界掀起了一场前所未有的震动。

当机器能流畅地听懂人话、说出人话,甚至写出逻辑通顺的文章时,一连串尖锐的问题摆在了所有语言学者面前:语言还是人类独有的能力吗?我们研究了几十年的语言学理论,为何没能指导大模型取得这样的突破?站在数字工业革命的十字路口,语言学该往何处去?

这些问题,袁毓林教授在新书《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》中给出了系统而深刻的回答。

这本书讲了什么?

这不是一本单纯的技术科普,而是一位深耕理论语言学与计算语言学数十年的学者,站在学科交叉的视角,对大模型时代语言学命运的深度思考。

全书分为三编,层层递进:

 第一编 语言大模型的原理和机制:从人类语言的设计原理讲起,清晰拆解 ChatGPT 如何用词向量破解自然语言的离散性与语义鸿沟难题,又如何通过生成式预训练、指令微调、基于人类反馈的强化学习等技术,实现接近人类水平的语言理解与生成。

● 第二编 语言大模型的能力和边界:用指称歧义句、花园幽径句、递归嵌套句等经典语言学测试,客观评估大模型的语义理解与常识推理能力。书中用扎实的实验数据证明,大模型并非 “随机鹦鹉”,它能从海量语料中习得世界知识,构建近似的世界模型,真正实现对自然语言的理解。

● 第三编 对语言学的挑战和启示:这是全书最具分量的部分。作者直面大模型绕过当代主流语言学理论却取得成功的事实,呼吁学界反思 “精确描写还是抽象解释”“语言天生还是后天学习”“普遍语法还是概率语法” 等核心争议,并提出了语言学家与大模型协同的三种模式:嵌入式、副驾驶和智能体。

完整目录如下

 ↓                 ↓ 

为什么值得读?

对于语言学研究者,这本书是一面镜子,能让我们看清现有理论的优势与局限,找到学科未来的发展方向;对于人工智能从业者,它能帮你从语言本质的角度理解大模型的底层逻辑,跳出纯技术的思维局限;对于普通读者,它能让你跳出对大模型的盲目惊喜或恐慌,理性认识人工智能的能力与边界。

作者简介

袁毓林,1962年2月出生于江苏省昆山市,语言学家,澳门大学人文学院中国语言文学系讲座教授,教育部长江学者特聘教授,国家 “万人计划” 哲学社会科学领军人才,曾任北京大学中文系教授、博士生导师。袁毓林主要从事理论语言学、汉语语言学(特别是句法学、语义学、语用学)以及计算语言学、中文信息处理等领域的研究。他提出了“基于认知并面向计算”的语言学研究路径,构建了汉语意合语法的理论模型,并在汉语配价语法、词类模糊划分等方面取得了重要成果。

袁毓林教授的部分学术著作

赠书福利来了!

● 活动奖品:《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》实体书5 本

● 参与方式:关注本公众号,转发本文至朋友圈并在评论区留言,单条评论点赞数达到 80 + 即可参与

● 获奖规则:先到先得,我们将按照评论点赞达标时间的先后顺序,联系前 5 位符合条件的读者

● 活动截止:2026 年 6 月 13 日 24:00

● 特别说明:获奖读者需提供朋友圈转发截图,奖品将免费包邮寄出

当语言学遇上大模型,是学科的终结,还是新生的开始?翻开这本书,或许你会找到答案。

欢迎大家在评论区分享你对大模型与语言学关系的看法,也期待你把这本书分享给更多感兴趣的朋友~

京东、当当等平台已上线,欢迎选购!

= END =

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

会议通知 | 第十届中国语言智能大会暨第二届语言脑机接口镜湖论坛

2026年6月5日 00:00

徐惠 2026-06-05 00:00 江苏

7月3日至7月5日川外举办语言智能大会,聚焦语言智能与脑机接口前沿研讨。

转载自“川外学坛”

会议介绍

为推动语言智能与脑机接口领域的交叉创新,促进学术交流与学科建设,“第十届中国语言智能大会暨第二届语言脑机接口镜湖论坛”将于2026年7月3日-5日在四川外国语大学召开。本次会议由中国人工智能学会(CAAI,https://www.caai.cn/)、中国语言智能研究中心主办,CAAI语言智能专委会、四川外国语大学语言智能学院(通识教育学院)及AI+领域应用关键技术北京市重点实验室承办。

本次大会特设“语言智能本科专业建设院长论坛”“青年学术论坛”;将邀请语言智能与脑机接口领域知名专家、学者作主旨发言。欢迎各高等院校、科研机构、中小学及行业产业领导、专家、学者、同仁拨冗与会,共襄盛会。

组织单位

主办

中国人工智能学会

中国语言智能研究中心

承办

CAAI语言智能专委会

四川外国语大学语言智能学院(通识教育学院)

AI+领域应用关键技术北京市重点实验室

协办

重庆市人工智能学会

重庆市沙坪坝区国际语言脑机接口联合研究院

支持

中国残疾人康复协会语言障碍康复专业委员会

会议初步议程

报到地点

重庆市沙坪坝区沙磁公馆

会议主要议题

1. 语言智能科学研究

2. 语言智能学科体系构建研究

3. 语言智能本科专业建设

4. 语言脑机接口

5. 语言智能教育

6. 中小学语言教育智能体开发与应用

7. 其他相关议题

主旨报告专家(更新中..)

(以姓氏拼音为序)

侯文生(重庆大学)

姜   孟(四川外国语大学)

李舟军(北京航空航天大学)

林鸿飞(大连理工大学)

刘   杰(北方工业大学)

吕学强(北京信息科技大学)

王国胤(重庆师范大学)

王丽丹(西南大学)

吴   庄(广东外语外贸大学)

尧德中(电子科技大学)

尹   明(云南财经大学)

余正涛(昆明理工大学)

赵   晨(广东外语外贸大学)

周   强(清华大学)

周建设(首都师范大学)

周俊生(南京师范大学)

会议注册

1. 会议费用:本次会议不收取会务费,交通食宿自理(会务提供酒店推荐信息)。

2. 注册方式:通过下方二维码扫码填写报名信息。

3. 会议规模:为保证质量,会议将控制参会人数。

4. 联系电话:18182211733(江老师);15023537602(郝老师)

酒店信息(仅供参考)

1. 沙磁公馆:

约458元/晚(以预订实际为准)

电话:17723999508(余经理)

2. 沙磁时光酒店:

约336元/晚(以预订实际为准)

电话:17723999508(余经理)

3. 维也纳3好酒店:

约308元/晚(以预订实际为准)

电话:15523222536(吴经理)

4. 桔子酒店:

约430元/晚 (以预订实际为准)

电话:13696702083(王经理)

报名方式

请扫描下方二维码,填写参会回执:

会议期间,CAAI语言智能专委会拟筹备成立“语言智能学术专家委员会”“青年工作委员会”,热忱欢迎广大专家、学者、同仁参会加盟。加盟方式(点击链接,下载填写相关表格):

语言智能学术专家委员会:

学术专家委员会招募启事.docx

关注公众号

川外学坛

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

讲座预告| 美国威斯康辛大学麦迪逊分校韩瑞亚(Rania Huntington)教授 北美高校《聊斋志异》的跨文化教学

2026年6月4日 00:00

徐惠 2026-06-04 00:00 江苏

6月10日南师大开讲,韩瑞亚教授分享《聊斋志异》海外跨文化教学经验。

转载自“南师国教”

讲座预告

美国威斯康辛大学麦迪逊分校

韩瑞亚(Rania Huntington)教授

北美高校《聊斋志异》的跨文化教学

主题

北美高校《聊斋志异》的跨文化教学

主讲嘉宾

韩瑞亚(Rania Huntington)教授 

美国威斯康辛大学麦迪逊分校 (University of Wisconsin–Madison)

与谈嘉宾

韩    石    南京师范大学

国际文化教育学院副教授

徐正龙     南京师范大学

国际文化教育学院副教授

钱慧真     南京师范大学

国际文化教育学院副教授

杨    娟     南京师范大学

国际文化教育学院副教授

主持人

孙晓苏     南京师范大学

国际文化教育学院副教授

时间

2026年6月10日(星期三) 

下午 3:00

地点

南京师范大学随园校区

200号楼108室

内容提要:

《聊斋志异》篇幅短小而内容新奇多样,适合跨文化语境中的语言与文化教学。本讲座基于北美高校三十多年的教学经验,探讨如何将《聊斋志异》及中国志怪传统融入“初级古代汉语”、“古典文学选读”、 “亚洲神仙鬼怪”、“亚洲推想小说”等课程。讲座将重点分享两个层面的实践策略:一是如何将学者个人的志怪研究方向与更广泛的教学领域有效对接;二是如何指导不同语言、文化、专业背景的国际学生阅读和理解《聊斋志异》及其它志怪小说。本讲座旨在为国际中文教育、比较文学与翻译研究等领域的师生提供可操作的课程设计思路与跨文化教学范例。

主讲嘉宾介绍

韩瑞亚 (Rania Huntington),威斯康辛大学麦迪逊分校亚洲语言文化系中国文学教授,武汉大学文学院兼职教授。博士毕业于美国哈佛大学东亚语言与文明系,曾于南京大学、南开大学进修。研究领域为明清小说,特别关注志怪文学、文学与记忆、文学与地理等。代表作有Alien Kind: Foxes and Late Imperial Chinese Narrative (Harvard University Asia Center, 2004)(中译本《异类:狐狸与中华帝国晚期的叙事》, 中西书局,2019), Ink and Tears: Memory, Mourning, and Writing in the Yu Family(《墨与泪:俞氏家族的记忆、哀悼与书写》, University of Hawaii Press,2021)等。

与谈嘉宾介绍

韩石,南京师范大学国际文化教育学院副教授。主要承担中国古代文学、文化典籍阅读和来华留学生汉语课程等教学工作,专业方向为中国古代文学。

徐正龙,文学博士,南京师范大学国际文化教育学院副教授,从事国际中文教育。曾在美国、印尼等国推广中文及教师培训工作。主编《老外在中国》《问鼎HSK》;参编《中国历史常识》《菲律宾华语课本》等。

钱慧真,南京师范大学国际文化教育学院副教授,硕士生导师。主要研究方向汉语域外传播、语言接触及明清训诂学史研究。主持国家社科基金、教育部社科基金各一项、江苏省社科基金两项。出版专著《惠栋训诂研究》《<荷谷朝天记>校注》等四部,在《古汉语研究》《语言研究》《古籍整理研究学刊》等专业期刊发表论文20余篇。

杨娟,文学博士,南京师范大学国际文化教育学院副教授,曾任阿根廷国会大学孔子学院中方院长。研究方向为国际中文教育、海外华语与文化传承与传播。主持教育部社科项目、省社科项目、厅项目各一项,著有专著1部,发表论文10余篇。

关注我们

图文|国教院

排版|赵梓萌

审核|孙绪敏 孙道功

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

论坛预告 | 吴长安《语体中单句、复句、流水句的关系考察》

2026年6月1日 00:00

徐惠 2026-06-01 00:00 江苏

“实验语言学+”云上论坛6月2日开讲,吴长安教授谈语体句式关系。

活动预告

“实验语言学 +” 云上论坛即将开播,东北师范大学吴长安教授将带来《语体中单句、复句、流水句的关系考察》主题分享,共探汉语语法研究新视角。

活动安排

  • 时间:2026年6月2日(周二)19:00

    (次日上午10:00于斗鱼直播间进行重播)

  • 地点:线上·腾讯会议

    (若腾讯会议满,请至斗鱼直播间观看)

  • 会议号:454-527-129(密码:0602)

    (详情参照上图内容)

主讲人简介

吴长安,东北师范大学国际中文教育学院、文学院二级教授,汉语国际教育专业学位、汉语言文字学专业博士生导师,校学术委员会委员。兼任中国语言学会理事、全国现代汉语教学研究会副会长,吉林省国际中文教育学会名誉会长,吉林省语言学会副理事长等。主要从事汉语语法研究,近年来致力于构式语法理论探索,在《中国语文》《当代语言学》《世界汉语教学》等发表论文 100 多篇,出版专著两部,主持国家社科基金项目 2 项,国家语委重大项目 1 项、重点项目 2 项,学术成果获美国柯尔比科学文化信息中心 “千禧优秀科学论文” 奖,吉林社会科学优秀成果一等奖等奖励。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

会议通知丨融合与边界:人工智能时代的数字人文发展新进阶

2026年5月31日 10:20

联盟大事记 2026-05-31 10:20 江苏

以下文章来源于:数字人文专业发展联盟

数字人文专业发展联盟

数字人文专业发展联盟官方账号

2026 年 7 月上海大学将举办数字人文联盟年会,聚焦 AI 与数字人文融合发展。

转载自“数字人文专业发展联盟”

时间

2026年7月10日至13日

地点

上海大学宝山校区: 上海市上大路99号

2026 

数字人文专业发展联盟第二届年会

暨第七届清华大学数字人文国际论坛、中国文艺理论学会数字人文分会第四届年会

会议背景

新一代AI技术的不断突破,为人文学科研究注入前所未有的活力,也为人文与科技的深度融合开辟了新的路径,提供了更广阔的发展空间。在此背景下,数字人文专业发展联盟第二届年会暨第七届清华大学数字人文国际论坛、中国文艺理论学会数字人文分会第四届年会拟定于7月10日—13日在上海大学宝山校区举办。

本次会议旨在凝聚学界共识,分享成功经验,共同探索数字人文进入人工智能时代的新范式、新路径、新方法。会议将邀请国内外专家学者,围绕人工智能时代数字人文研究的前沿与学科建设核心议题展开深度研讨,通过跨学科对话,推动数字人文学科繁荣发展,助力新文科建设与交叉学科人才培养,服务国家文化数字化战略与教育强国建设。为最大程度地促进思想碰撞与跨界合作,本次会议面向数字人文生态中的多元主体发出诚挚邀请。

组织机构

主办单位 

数字人文专业发展联盟

中国文艺理论学会

承办单位

上海大学文学院

上海大学文化遗产与信息管理学院

中国文艺理论学会数字人文分会

协办单位

清华大学中华传统文化智能实验室

清华大学-同方知网数字人文联合研究中心

中华书局古联(北京)数字传媒科技有限公司

高等教育出版社上海出版事业部

会议时间地点

2026年7月10日-13日    共4天

报到  7月10日

会议  7月11日—12日

赋归  7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

地址:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

会议主题

核心主题包括但不限于:

数字人文专业发展的路径探索与实践创新

跨学科融合驱动的人文知识生产新模式

数字人文基础设施与数字批判反思

大语言模型赋能人文研究的新范式

生成式AI与创意实践价值

人工智能对人文艺术的赋能与边界

人工智能文艺的社会性与人文性

古籍文献智能化处理与数字保护

数字遗产的创造转化与传承

待完善扩充……

会议特色

本届联盟年会聚焦学科建设与人才培养,除设置理事会会议、主旨演讲、专题论坛等常规板块外,拟推出多项务实举措。

高水平人文社科实验室交流会

拟邀请人文社科实验室建设专家闭门交流

院长论坛

围绕数字人文专业建设展开深度交流,创新设立虚拟协同教研室,探索跨校协作机制,促进校际互鉴,推动教学资源与科研力量的整合优化,共创联盟合作新模式

清华大学数字人文国际论坛“未来学者”专场

为海内外青年学者搭建交流平台,围绕数字人文的跨学科研究、古籍数字化、大模型应用等热点议题,展现新文科背景下青年一代的创新探索

课程示范

展示分享优质数字人文教学案例,推动课程资源共建共享

成果发布

集中呈现数字人文代表性建设成效和项目案例,为各单位提供参考借鉴

主编讲堂

特邀知名学术期刊主编就论文写作、投稿策略、评审标准等进行专题指导,切实提升学术发表能力

媒体支持

网站

中国数字人文官网

期刊

《数字人文》

《文艺理论研究》

《山东社会科学》

《东南学术》

《文化研究》

《探索与争鸣》

《上海交通大学学报》

《广州大学学报》

《福建师范大学学报》

《南京师范大学文学院学报》

《数字人文与科幻研究学刊》

《东岳论丛》

《电影艺术》

Chinese Semiotic Studies

《中国创意写作研究》

《上海大学学报(社会科学版)》

(学术支持单位持续更新中,感谢支持!)

……

公众号

DH数字人文

数字人文专业发展联盟

经典古籍库

京狮人文

比特人文

……

参会注册、报名

相关流程

联络人及电话:

 苗老师  18236902942

 段老师  13391253562

1.注册报名

截止时间:2026年4月13日

2.论文提交

截止时间:2026年5月13日

3.报名方式

扫码填写参会回执,会务组将组织专家预审,2026年5月30日前确定参会名单,并发送会议邀请函。

投稿须知

所有参会人员均需填写参会回执。未来学者论坛请先完成大会回执填写,另将论文投稿至指定刊物投稿系统。

向大会投稿

(面向数字人文生态中的多元主体征集)

投稿论文请注明:

联盟年会投稿+作者名+作者单位

投稿方式:

扫描下方参会回执二维码填写上传

向未来学者论坛投稿

(面向本/硕/博阶段在读学生,不含博士后)

摘要提交截止日期:2026年5月22日

全文提交截止日期:2026年6月12日

投稿地址:https://szrw.cbpt.cnki.net

投稿说明:

来稿请投“未来学者专栏”,文章作者除指导教师(请标记为“通讯作者”)外,须全部为本/硕/博阶段在读学生,不含博士后。

参会要求

参会人员收取会务费,会务费标准为800元/人,学生半价优惠400元/人,每个联盟理事单位免1人参会费。会议期间的餐饮费用由承办方承担,交通、住宿费敬请自理会务组可代订酒店。入选“未来学者”论坛发言的作品每篇免1人参会、住宿费。缴费时间及缴纳方式将另行通知。

【备注】

1.电脑端阅读用户可复制网址填写:

https://pcn08dpdjolp.feishu.cn/share/base/form/shrcnhA0MGEBpltCoo2wPZYqUTb

2.手机端用户请先将论文全文定稿使用【手机文档/文件中心】打开或保存至【手机文档/文件中心】。扫描或长按识别二维码填写回执,点击上传附件按钮,在【手机文档/文件中心】选中论文全文文件即可成功上传。

3.电脑端查看填写遇到问题,辛苦您切换尝试使用手机端完成,或与我们的工作人员取得联系,联系方式详见注册报名版块。

数字人文专业发展联盟

中国文艺理论学会数字人文分会

上海大学文学院

上海大学文化遗产与信息管理学院

清华大学中华传统文化智能实验室

清华大学-同方知网数字人文联合研究中心

中华书局古联(北京)数字传媒科技有限公司

高等教育出版社上海出版事业部

2026年3月9日

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

张永伟:国家语料库 CNC 的研制

2026年5月29日 00:00

徐惠 2026-05-29 00:00 江苏

张永伟阐释国家语料库CNC设计理念、工具功能及共建共享建设目标。

转载自“汉语堂”

引用方式:[1]张永伟.国家语料库CNC的研制[J].辞书研究,2026,(03):1-12+125.

国家语料库 CNC 的研制

摘要:国家语料库是重要的语言文化资源。文章立足国家语料库的研制实践,介绍其建设背景与建设目标;从语料采集、加工标注、分析工具研制等层面阐释其设计理念;说明其分析工具的检索、统计、搭配和对比等功能。国家语料库以共建共享为核心理念,致力于打造类型多样、质量可靠、功能丰富、开放共享的国家级语言资源基础设施,为推进语言文字信息化发展、推动语言文字高质量发展贡献力量。

关键词:国家语料库;设计理念;共建共享;分析工具

一、引言

语料库是依照特定语言学原则系统收集的自然语言文本集合。大规模语料库的建设,能够为客观揭示语言规律提供坚实的实证数据支撑,是现代语言学及相关学科赖以发展的基础资源。张伯江和张永伟(2023)指出,许多国家都将语料库作为重要的基础工程进行建设。如英国、美国和韩国分别于 20 世纪 90 年代先后启动或筹划了国家语料库的建设,俄罗斯、匈牙利、泰国、爱沙尼亚等国也相继建成并发布了各自的国家语料库。

我国虽尚未建成以 “国家语料库” 正式命名的大规模语料库,但已有诸多优秀语料库,如国家语委现代汉语通用平衡语料库、北京大学中国语言学研究中心 CCL 语料库(以下简称 “CCL 语料库”)、北京语言大学 BCC 现代汉语语料库(以下简称 “BCC 语料库”)等,在语言教学与研究中发挥着重要作用。这些语料库从数据采集、加工处理到分析工具的研制,均由单一机构完成。相比之下,国外的 CQPweb、SketchEngine 等平台在语料库的共建共享方面做了大量探索。它们通过开放或提供分析工具,支持多语言语料库的汇聚与应用,有效满足了语言教学与研究对语料库的多样化需求。

2021 年,国家语料库(ChineseNationalCorpus,CNC)建设被纳入中国社会科学院 “十四五” 规划项目,同年,中国社会科学院语言研究所创新工程设立了 “国家语料库建设” 项目,旨在建设服务于语言教学与研究的国家语料库。该语料库的建设充分吸收了语料库语言学的最新成果,确立了全新的建设目标:提供多文种、多媒体、多模态且安全可靠的语言资源,搭建功能丰富、易于使用、合作共享的应用平台。在后续的研发与功能迭代中,国家语料库先后又获得多项课题资助,目前已成为中国社会科学院(中国社会科学院大学)语言学重点实验室 “国家语料库一体化平台建设与应用研究” 项目的重要组成部分。本文将梳理国家语料库的设计理念,并详细说明其分析工具已经实现的功能。

二、国家语料库的设计理念

国家语料库作为国家级语言资源的基础设施,其设计理念的科学性直接关系到建库目标能否顺利实现。我们从语料采集、加工处理、分析工具研制三个方面梳理国家语料库的设计理念。

(一)语料采集的理念

1. 坚持高质量的语料标准

语料质量是语料库的基石,直接决定了语料库的应用价值。尽管各个子语料库(以下简称 “子库”)的建设目标不尽相同,但所收录的语料都应具备高度的代表性、准确性及可溯源性。其中,代表性要求入库语料在时间、地域、语域及文体等维度的分布上,能够客观、均衡地呈现目标语言变体的实际面貌;准确性要求语料能最大程度地排除人为错误,忠实保留语言的原本状态;可溯源性则要求每条语料都有清晰可靠的来源,便于核查。

此外,国家语料库还实行动态的质量监管,定期排查语料,及时剔除、隔离低质量或存在潜在风险的语料甚至子库,确保语料库的可靠性与安全性。

2. 推动资源共建与开放共享

共建共享是国家语料库的核心设计理念。国家语料库采用半开放架构,希望能打破单一建设主体的局限,实现语料资源的规模化、共享化与可持续化发展。中国社会科学院在建设基础语料库的同时,也面向符合条件的机构和个人开放,积极吸纳具备特色且高质量的语料库入驻,将其整合后纳入国家语料库体系,形成统一管理、多元支撑的国家级语言资源平台。例如,对外经济贸易大学刘云教授主持开发的 “北京话历时复合语料库(一期)” 已作为首批优质资源成功接入。在多方参与的建设过程中,国家语料库充分保障各子库的知识产权与学术权益,提供完善的技术服务与宣传推广,有效降低合作机构的建设和运营成本,促进语料库的共建共享,提升国家语料库的整体覆盖范围、学术价值和社会服务能力。

3. 支持多媒体多模态语料

作为国家级语言资源枢纽,国家语料库始终坚持全面、多元的语料采集与整合理念,在重点采集电子文本语料的基础上,全面兼容并支持多媒体多模态语料,充分发挥两类语料的优势,为各类语言教学与研究提供全方位支撑。电子文本语料时间跨度长、易于采集、标准化程度高、便于计算机处理,适合开展大规模的词频统计和搭配分析,是语料的基础形式。相比之下,多媒体多模态语料出现时间晚、采集困难,但能够记录更丰富的话语时空信息,生动还原真实的交际场景,为话语分析等研究提供支持,完成电子文本语料无法实现的研究。因此,国家语料库对两类语料的兼容既保障了基础语言研究的高效开展,又实现了语料资源的多元化拓展,满足了前沿研究的多样化需求。

(二)语料加工处理的理念

1. 生熟语料的兼容与互补

除语料形态的多元兼容外,在语料加工处理的核心议题上,国家语料库也秉持灵活开放的原则。语料是否需要切分标注(即 “生” 与 “熟” 的取舍),一直是汉语语料库建设的核心议题,影响着分析工具的功能设计与技术实现。以国内两大知名语料库为例,CCL 语料库是生语料库(詹卫东等 2019),BCC 语料库则以熟语料为主(荀恩东等 2016)。熟语料有利于开展基于词法分析、句法分析结果的研究,但会带入特定语言学理论的预设,也难以避免切分标注的错误。生语料能客观保留语言文本的原始面貌,但难以直接支持与词法、句法有关的研究。

国家语料库充分兼顾不同研究场景的需求,实现了生语料和熟语料的兼容。由子库建设者确定是提供生语料或熟语料,还是同时提供生、熟两个版本的语料。这提升了国家语料库的包容性与实用性。

2. 词法与句法信息的一体化标注

当前,汉语语料的加工多停留在分词与词性标注等词法层面。尽管依存句法和成分句法分析技术已趋于成熟,开源可用的工具也很多,但受限于复杂的检索逻辑与较长的响应时间,多数现有大规模语料库系统仍侧重于词法信息的检索与分析。(张永伟等 2022)针对这一现状,国家语料库在架构设计上采取了前瞻性布局,虽不提供词法分析、句法分析的具体工具,但在架构设计上预留了充足的适配空间,支持对电子文本语料进行词法分析、依存句法分析、成分句法分析等,从而能够及时吸收计算语言学关于电子文本加工处理的最新成果,助力汉语语料分析向更深层次推进,进一步提升国家语料库的学术价值与应用潜力。

3. 以字词为基本单位的开放标注

立足于汉语研究的多元需求,国家语料库在支持词法分析与句法分析的基础上,进一步兼顾各类特殊标注需求。比如多音字的读音、多义词的义项等信息,虽不属于传统的词法标注范畴,却能更好地支持相关语言研究。为此,国家语料库秉承开放标注理念,支持以字或词为基本单位进行多样化标注,赋予子库建设者充分的自主空间 —— 子库建设者可根据研究需要直接添加新的标注。这种设计使得国家语料库无需修改底层代码,即可顺利接入包含特殊字词标注的子库,在降低子库接入技术门槛的同时,又进一步拓展了国家语料库的标注维度与应用场景,充分彰显其开放包容的建设理念。

4. 元信息的个性化与多标签标注

国家语料库充分重视元信息的管理与应用。元信息(metadata,又称元数据)即对语料进行描述、解释、定位与管理的附加信息,本质是关于数据的数据。典型的元信息包括字体、样式、标题、开头、结尾、文献信息、作者信息、修正记录、添加日期等。(Sinclair2007,转引自冯志伟 201344)语料库类型的差异决定了语料元信息构成的不同,如报纸、法律法规、文学作品的元信息各有侧重。为此,国家语料库须支持元信息的个性化定义,允许语料库建设者自定义元信息。

国家语料库将标签(tag)作为特殊的元信息,用于描述语料的各类信息。针对传统语料库树形分类的局限,国家语料库支持多标签标注,将分类作为标签内容,语料库建设者可以为语料添加任何相关的元信息,如为单篇语料添加 “当代”“文学”“小说” 等多个不同层级的标签。这样,使用者就可以通过单个标签或标签组合灵活精准地筛选语料,从而最大程度地挖掘现有语料库的价值。

(三)语料库分析工具的设计理念

1. 功能丰富

在语料分析工具的设计上,国家语料库同样立足研究需求,对标前沿标准。张永伟和吴冰欣(2023)梳理了第四代语料库分析工具应该具备的核心功能,并在此基础上分析了国内外相关工具的支持现状。文章指出,语料库分析工具应具备用例查询、搭配查询、频次统计、对比等核心功能。其中,用例查询可细分为基本查询、多条件查询和针对语料库的查询;搭配查询以共现搭配和基于语法关系的搭配为主;频次统计主要统计词频表和词簇频次表;对比功能则包含同一语料库中不同语言现象的对比和同一语言现象在不同语料库(或子库)中的对比。

国家语料库分析工具在宏观设计上,明确以实现上述四大核心功能为目标,并注重打通各项功能间的关联,提升使用的便捷性。比如,在查询语料时,能便捷地统计查询结果的频次信息;在查看搭配详情时,也能便捷地调出当前搭配的具体用例。需要指出的是,单个语料库最终向用户开放哪些功能,仍需由语料库建设者根据实际需求,通过后台配置来决定,充分兼顾了自主性和实用性。

出于版权保护和系统稳定性的考虑,国家语料库实行用户注册制,对占用较大内存和计算资源的功能设定了每日使用次数上限。

2. 易于使用

语料库分析工具的应用价值不仅取决于功能的丰富程度,也受制于功能的使用门槛。因此,国家语料库分析工具在追求功能丰富的同时,也追求易用性,使不同技术背景的使用者均能快速使用。

针对查询条件设定这一核心环节,国家语料库配备图形化、交互式的查询条件生成工具,让使用者无需掌握复杂的查询语言,只需通过点击选择、填写简明表单即可完成条件设置,分析工具可自动将这些操作结果转换为后台可执行的查询指令,从而确保非技术背景的使用者也能快速上手。

同时,国家语料库分析工具的查询语法具备较高的兼容性。比如,使用者在 BCC 语料库中完成检索后,若期望在国家语料库中执行同样的检索,便可直接粘贴 BCC 检索式。分析工具能够自动解析该检索式并返回相应结果。这种兼容性的设计打破了不同语料库分析工具之间的操作壁垒,减轻了使用者重复编写检索式的负担。此外,国家语料库还提供即时、全面的用户帮助体系。通过上下文帮助机制实现即时响应,使用者在操作中产生疑问时,无需中断当前流程即可获取帮助;通过图文并茂、音视频结合的操作手册,实现内容的全面覆盖,进一步降低分析工具的学习门槛。

3. 智能化赋能

国家语料库在分析工具的迭代升级中,应积极引入人工智能技术,在丰富平台功能的同时不断优化易用性,提升用户的研究效率与使用体验。比如,支持使用者直接使用自然语言进行检索,工具能够自动解析自然语言中的核心检索意图,将其转化为后台可执行的检索指令,让非技术背景的使用者也能轻松完成精准检索。再比如,可将检索结果与大语言模型对接,实现检索结果的智能分析与深度挖掘,辅助使用者快速梳理数据并得出初步结论,提升研究效率。这种人工智能技术的引入,拓展了语料库分析工具功能的边界,让语料库从 “检索工具” 升级为 “智能分析助手”。

三、国家语料库的功能实现

目前,国家语料库已经完成一期建设,其分析工具也已发布。一期建设整体遵循了前文所述的设计理念,但受限于研发资源和开发周期,部分规划尚未完全实现。比如,智能化赋能的理念尚未实现,语料切分标注的准确性也缺乏完善的保障,相关的评测与优化工作仍在推进中。(张永伟等 2025)本部分重点阐述语料库分析工具(一期)已实现的功能。

(一)检索模块

检索模块提供了 3 种检索方式,支持语料检索范围的限定,支持设置检索结果的显示,并提供检索结果的排序、分布分析、抽样、统计和下载等功能,让使用者能更精准地查、更直观地看、更便捷地用。

1. 检索方式

检索模块提供了简单查询、模糊查询和高级查询 3 种检索方式。

(1)简单查询

简单查询采用单个输入框设计,支持字词、语料库查询语言(CorpusQueryLanguage,以下简称 CQL)语句和 BCC 检索式输入,检索模块自动判定输入类别并执行检索操作。此外,检索模块还配备了图形化的 CQL 编辑器,便于不熟悉 CQL 的使用者直接利用该编辑器生成 CQL 语句。

(2)模糊查询

模糊查询基于编辑距离计算,先找出与目标词形近的词,再以此为基础在语料库中执行检索。形近词的匹配范围可通过指定 “固定前缀长度” 和 “模糊度”(即最大编辑距离)进行控制。以检索词 “关心” 为例,若固定前缀长度设为 0、模糊度设为 1,可匹配 “关于、中心、关心、信心、人心” 等词;若固定前缀长度设为 1、模糊度设为 1,则必须包含 “关” 字,匹配 “关于、关心、关头、关切、关中” 等词。需要注意的是,模糊查询仅适用于已分词的语料库,且只能对词形进行查询。

(3)高级查询

高级查询允许使用者通过表单组合多个检索条件,各条件组件间支持 “与、或、非” 逻辑运算,但不支持条件嵌套。目前,检索模块提供的条件组件包括字形、词形、字词附加属性,以及字详情、词详情、词关系和短语详情等。具体显示哪些条件组件,由语料库建设者根据语料库的类型和标注情况自主设置。其中,词详情功能适用于已分词的语料库,可支持使用者为特定词设置词形、词性、其他附加属性及词长等匹配条件。分析工具为这些词汇特征的数据类型提供不同的匹配方式:针对数字类型(如词长),支持等于、小于、大于、介于等数值运算;针对字符串类型(如词形、词性),则支持精确匹配、包含、前后缀限定或正则表达式等匹配方式。词关系功能适用于查询条件包含多个目标词的情况,用于界定不同词语之间词汇特征的异同;短语详情功能则可用于设置短语中不同词语之间的语法关系。此外,高级查询还支持对检索对象在原文中的位置(如句首、句末、段首、段尾)及检索时是否区分大小写进行设置,从而进一步提升检索的精准度。

2. 语料过滤

语料过滤旨在通过对元信息的设置来限定语料的检索范围。针对不同语料库元信息存在差异的特点,分析工具支持对元信息的过滤条件进行定制。此外,语料过滤功能通过多过滤条件的逻辑运算及条件嵌套实现检索范围的精准限定。

(1)元信息类型

每个元信息都有特定的类型,类型不同,其匹配模式及在界面上对应的交互组件也不相同。元信息支持数字和字符串两种类型。数字如年份、时长、字数等,字符串如文体、作者、标题等。根据元信息的值是单个还是多个,又可将其进一步分为 4 种类型:数字、数字列表、字符串、字符串列表。

(2)匹配模式

匹配模式定义了过滤条件中的取值和语料元信息实际值之间的比对规则。每种元信息都对应特定的匹配模式,分析工具支持的匹配模式详见表 1:

(3)过滤条件

简单的过滤条件由元信息字段、匹配模式和条件值组成。以 “年份等于 2025” 为例,其中 “年份” 是元信息字段,“等于” 是匹配模式,“2025” 是条件值。复杂的过滤条件可由简单的过滤条件通过逻辑运算及条件嵌套组合而成,分析工具支持 “与” 和 “或” 两种逻辑运算,“非” 运算借助否定匹配模式实现。

3. 显示设置

显示设置用于控制检索结果的呈现方式,包括表格样式和内容展示等。显示设置分为全局功能设置与局部功能设置,前者作用于分析工具全局,后者仅针对检索结果页面生效。

全局功能设置包含检索结果列表的 “行距” 与 “操作列” 两项配置。行距支持 “紧凑”“适中” 和 “宽松” 三种模式;操作列则提供复选框、语法树、播放、上下文、复制等交互控件是否显示的切换。这些控件默认隐藏,使用者主动勾选后可见。需要注意的是,“语法树” 控件要求语料经过句法分析,“播放” 控件要求语料包含音视频文件,其前端是否允许勾选,取决于语料库建设者的后台配置。例如,若某语料库未提供句法分析数据,或建设者出于权限考虑不予公开,则可在后台将 “语法树” 控件设置为不可勾选。

针对检索结果的设置包含 4 个方面:

(1)显示模式:设置检索结果显示为上下文居中(KeyWordinContext,KWIC)形式或整句形式。

(2)匹配文本显示:用于设置匹配文本的具体呈现方式。支持设置是否显示字词边界(即词项间自动添加空格)及字词附加属性(词性、拼音等)的展示方式。

(3)左右侧文本显示:用于设置匹配文本两侧呈现文本时是否显示字词边界、如何显示字词的附加属性,以及左右侧文本显示的最大长度(生语料按字数计算,熟语料按词数计算)。

(4)数据列显示:用于设置检索结果列表需要展示的元信息。

4. 结果排序与乱序

检索模块支持从以下 4 个维度对检索结果进行排序:

(1)整体文本:依据完整的匹配文本、左侧文本或右侧文本进行排序。

(2)匹配文本:依据匹配文本内部的字词序列进行排序。使用者可自定义字词的排序优先级。

(3)匹配文本上下文:依据匹配文本的左侧文本或右侧文本的字词序列进行排序。使用者可设置左侧文本或右侧文本字词的排序优先级。

(4)元信息:依据一个或多个元信息的属性值进行排序,比如按年份、版名进行排序。

当设置了多个排序条件时,按条件的先后顺序依次进行排序。此外,检索结果默认按建库索引的先后顺序显示,若直接截取使用,容易导致检索结果缺乏代表性。为此,分析工具提供了单独的乱序功能,可以在不改变检索结果总数的前提下,随机打乱检索结果的顺序。

5. 结果分布

结果分布功能旨在协助使用者基于特定的元信息维度,分析检索结果的统计分布特征。分析工具支持以原始频次或百万频次作为统计指标。在可视化呈现上,不仅提供原始数据,还可将其渲染为折线图(系统默认)或柱状图。以 “希望” 一词使用的历年分布研究为例,在使用者获取包含 “希望” 的检索结果后,可将 “年份” 设定为统计维度,选取 “百万频次” 作为统计指标,通过折线图直观呈现其历年使用频次的变化。

6. 结果抽样

当检索结果过多而无法全量分析时,分析工具提供了随机抽样功能,允许使用者按特定数量或百分比抽取语料子集。同时,分析工具支持 “随机种子” 的设定。使用者输入相同的种子数值,即可获得一致的抽样结果,确保抽样结果可复现。

7. 其他功能

除上述功能外,分析工具还实现了检索结果的统计和下载功能。前者支持快速统计检索结果的频次信息,后者实现了语料的本地化导出,便于离线研究使用。

(二)统计模块

分析工具支持针对熟语料库和生语料库进行多种频次的统计,前者包括词语频次、词簇频次,后者包括字符频次、字簇频次,二者均包括通用频次。

1. 统计方式

词语频次统计主要用于分词的语料库。在检索配置方面,分析工具提供词形匹配、前 / 后缀匹配、正则表达式匹配、CQL 匹配、包含于某列表之中等 9 种匹配模式,并支持词性等附加属性的多选过滤。此外,使用者可灵活设定频次阈值。在词簇频次统计方面,分析工具仅统计由 2 至 6 个连续词项构成的词簇。在词簇频次统计过程中,支持指定词簇长度,并允许为词簇内的每个词项设置词形、词的附加属性等约束条件,指定词簇内不同成分间的属性关系(如词性异同)。针对经过成分句法分析的语料库,分析工具进一步支持名词短语、动词短语、介词短语等短语类型的限定。相较于熟语料库,生语料库的统计则主要针对字符特征,其统计规则也相对简单。比如字符频次仅支持 5 种基本匹配模式,字簇频次统计则由于缺乏句法标注信息,不支持短语类型限定。

通用频次统计模块实现了与检索模块高级查询方式的高度集成。分析工具支持对熟语料库和生语料库中基于高级查询方式构建的任意对象进行频次统计。针对上述各类统计模块,分析工具均支持按字词形及其附加属性的序列组合进行统计。

2. 显示设置

显示设置用于设置统计结果显示哪些频次及如何显示这些频次信息。可显示的频次包括原始频次、百万频次、相对频次(频率)、文档原始频次及文档相对频次(频率)等。其中,相对频次还可以设置是否以内嵌条形图的形式显示。使用者可自主选定需要显示的频次及其显示的次序。

3. 结果排序

统计模块支持基于原始频次 / 百万频次 / 相对频次、文档原始频次 / 文档相对频次和统计对象字符顺序的升降序排列。分析工具实现了多条件排序机制,允许使用者灵活设定主、次排序条件(如首选 “百万频次”,次选 “文档相对频次”),并由分析工具依条件的先后顺序进行排序。值得注意的是,相关指标列需事先在后台的 “显示配置” 中设定为可见状态,才可作为排序基准。

除上述功能外,统计模块还实现了抽样和统计结果的下载,这里不再赘述。

(三)搭配模块

分析工具为生语料库实现了窗口搭配提取,侧重于反映字符层面的共现特征;为熟语料库则不仅实现了窗口搭配提取,还实现了依存搭配提取,用于揭示词汇层面的共现规律。

1. 窗口搭配

窗口搭配模块依据线性距离检索并统计节点词邻近的搭配词。分析工具支持对当前词(即节点词)与搭配词的词形、词性及其他附加属性进行限定。此外,节点词还支持利用 CQL 语句进行定义,从而实现了对复杂语言现象共现词的检索与统计。为进一步提升检索精度,支持跨距和频次过滤参数的设置,前者将搭配词的出现范围限定在节点词前后的特定区间,后者则通过设置搭配词的最小原始频次与最小共现频次阈值过滤低频搭配。

在量化分析方面,分析工具实现了 Dice 系数、MI-Score、T-Score、MI3-Score、LogLikelihood、Minimumsensitivity、MI.log-f、相对频次、总共现频次及搭配频次等 10 种搭配强度计算公式,并支持通过搭配强度阈值的配置对搭配进行筛选。此外,分析工具既支持兼类词按相同搭配词进行计算,也支持其按不同搭配词进行计算。

在结果呈现与交互方面,分析工具提供了丰富的显示设置选项,支持显示的信息包括搭配强度、搭配词频次、搭配频次、出现在左侧的搭配频次、出现在右侧的搭配频次、位置详情等。其中,位置详情能清晰地呈现搭配词在不同跨距位置的分布情况,并以高亮形式显示其最常使用的位置。在结果排序方面,支持按搭配强度、搭配频次、搭配词频次等指标进行排序。此外,同检索模块类似,窗口搭配模块也实现了过滤、抽样及下载等功能。针对生语料库的窗口搭配模块与针对熟语料库的基本一致,仅在条件设置上更为简单,这里不再赘述。

2. 依存搭配

依存搭配模块依据词语之间的依存句法关系来提取搭配。与窗口搭配不同,依存搭配不涉及跨距的配置,增加了对具体搭配关系的配置,从而实现对特定依存句法搭配的提取。

分析工具支持 3 个方面的显示设置。首先,设置是否对搭配进行分组,设置是按词性还是句法关系进行分组,设置每个组的大小(每个组包含的搭配数)。分组后,具备相同属性的搭配项将进行聚类显示。其次,支持分布图和分布数据的显示。在非分组模式下,分析工具可提供分布图表或数据详情,支持基于元信息(如年份)揭示搭配频次的变化趋势。最后,支持结果数据列的个性化定制,涵盖搭配强度、搭配词原始频次及共现频次等。

在搭配结果交互与后处理方面,依存搭配模块提供了和窗口搭配一样的排序功能。此外,依存搭配模块同样实现了过滤、抽样及下载等功能。

(四)对比模块

对比模块实现了现象对比和语料对比两种模式。前者旨在分析同一语料库内部不同语言现象间的差异,后者则侧重于考察特定语言现象在不同语料库间的差异。限于篇幅,本节仅针对对比模块特有的功能展开论述。

1. 对比项的构建

现象对比支持两组不同语言现象的输入,语料对比支持两个语料库(或经特定元信息过滤生成的子库)的选择。需要指出的是,在语料对比时,特定的语言现象可映射为一个或多个具体的对比项。例如,“制定” 仅映射为单一的对比项;而基于前缀规则设定的 “以‘制’开头的词”,则可映射为包含 “制定”“制订”“制作” 等在内的多个对比项。

2. 统计显著性算法

在量化计算层面,对比模块基于频次计算对比项之间的差异,实现了卡方检验(ChiSquareTest)和对数似然检验(Log-LikelihoodTest)两种统计显著性检验算法。

3. 显示设置

对比模块基于两种数值数据进行对比,一是对比项的频次,二是对比项搭配词的频次。

现象对比子模块提供两种数据呈现,一种包含对比项及其频次信息,另一种包含对比项的搭配词、共现频次、显著性信息等。对于前者,分析工具支持进一步按某个元信息进行分布对比。以 “制定” 与 “制订” 的辨析为例,使用者可设定元信息 “年份” 为统计维度,考察二者频次的历时分布差异。

在语料对比子模块上,对比结果主要包括两种类型的信息:一种是对比项及其在不同语料库中的频次、显著性信息;一种是搭配词及其在不同语料库中的搭配频次、显著性信息。

在对比视图交互中,分析工具支持对比项的便捷检索,便于使用者查看对比项在语料库中的具体用例。此外,分析工具同样实现了对比结果的排序、下载等功能。

(五)语料库管理模块

前述的检索、统计、搭配与对比模块共同构成了面向用户的系统前台应用层,而语料库管理模块则属于系统的后台维护层。该模块的核心业务主要涉及底层语料库增加、更新、配置与删除,以及语料库索引的建立、更新与删除等,为前台应用层功能的顺畅运行提供支持。

四、结语

目前,国家语料库已完成一期建设并投入运行,具备了较为完备的语料分析功能,基本能够满足语言教学与研究的多样化需求。随着国家语料库建设的不断推进,分析工具的功能还将持续迭代,但其核心设计理念保持稳定。同 CCL 语料库、BCC 语料库等相比,国家语料库尚处于起步阶段,仍有许多工作亟待完善。接下来拟从以下五个方面开展二期建设:一是吸收用户反馈,完善分析工具功能;二是探索智能化赋能;三是实现对多语平行语料库的支持;四是为多媒体多模态语料库提供更多支持;五是持续推进基础语料库的建设。

国家语料库自规划之初,便确立了共建共享的设计理念,诚挚欢迎持有特色语言资源的机构或个人合作共建,也欢迎已有的高质量语料库入驻。我们将持续提供稳定的技术支持,建立健全语料安全管理机制,切实保障语料库建设者的正当权益,并适时开展语料库的使用培训与宣传推广。希望在国家语料库的建设框架下,多方通力合作,真正实现共建共享,共同为加强数字中文建设、推进语言文字信息化发展、推动语言文字高质量发展贡献力量。

今日责编:星河万里

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

AI+社科 ,第四届“人文社科之光”社科普及短视频大赛必须冲!

2026年5月28日 00:00

江苏社科联 2026-05-28 00:00 江苏

以下文章来源于:江苏社科联

江苏社科联

江苏省社科联是江苏省委领导下的学术性群众团体,是全省社科工作者的联合组织,是全省性社科学术社团和民办研究机构的业务主管单位,是省委、省政府联系全省哲学社会科学界的桥梁纽带,是繁荣发展社科事业的重要力量。

别再说AI只能画画作图啦,2026年度社科圈赛事——第四届“人文社科之光”社科普及短视频大赛重磅来袭!

为进一步学习贯彻习近平文化思想,加强新时代科普能力建设,更好发挥社科普及在价值引领、文化传承、知识传播等方面作用,积极探索人工智能(AI)技术在社科普及领域的实践运用。5月26日,由全国各省(自治区、直辖市)社科联主办,江苏省社科联承办的第四届“人文社科之光”社科普及短视频大赛正式开启。

跨界主题等你挑战

本次大赛的主题是爱社科·AI普及,主打“科技+人文”的跨界整活。

热爱社会科学普及事业和乐于参与普及推广社会科学知识的社科普及工作者、社科普及爱好者、社会团体人员、在校学生等,均可通过活动官方报名渠道参加。

搞什么内容能冲奖

划重点!大赛发挥AI技术以及创意优势,可聚焦以下任选其一:地名里的红色故事、文字中的中国故事、讲好社科名家故事。简单解读,以下12个字:

地名:深挖隐藏在大小地名背后的红色故事,发挥AI创意设计等优势,以社科普及方式庆祝中国共产党成立105周年。

汉字:一字越千年,看中国精神。选择一个字或词,深挖其中华文化基因与精神密码,发挥AI优势彰显文化自信与文明传承风采。

大师:聚焦新中国成立后老一辈社科名家,从一名代表性人物入手,主打用AI给学术泰斗“拍传记”。

优秀作品还有经费资助

以上并非全部,优秀作品还有经费资助!活动一等奖2000元,二等奖1500元,三等奖1000元为税前金额以及证书加持!

“上车”指南看过来:

参与作品统一在B站短视频平台发布,添加话题#人文社科之光#。视频发布后须通过活动官网或官微提报信息:

方法1:访问“人文江苏”网(https://rwjs.jschina.com.cn/)的第四届“人文社科之光”社科普及短视频大赛宣传栏报名。

方法2:关注“江苏社科联”微信公号,进入“人文社科之光”社科普及短视频大赛宣传栏报名。

友情提醒:作品须是2025年7月以来创作的短视频,全部或部分采用AI创作。时长3—5分钟,分辨率不低于1920×1080像素。

报名时间:5月26日-7月26日

联系人:王老师  电话:025-83353872

技术支持电话:025-58682280

logol.png

扫描二维码

直达报名页

编辑:陈潇

审核:蒋志初

终审:朱建波

版权声明:文图来源网络,若有侵权请联系删除。

图片

阅读原文

跳转微信打开

前沿 | 第十四届全国语言文字应用学术研讨会(免会务费)

2026年5月27日 00:00

徐惠 2026-05-27 00:00 江苏

第十四届全国语言文字应用研讨会十月举办,聚焦语言文字应用创新研究。

本文来源:语言文字应用

第十四届全国语言文字应用学术研讨会

为促进中国语言文字应用研究的理论和实践创新,保障支撑语言文字事业高质量发展,教育部语言文字应用研究所、武汉大学拟于202610月下旬联合举办第十四届全国语言文字应用学术研讨会诚邀相关研究领域专家学者莅临会议。谨将有关事宜禀告如下:

1

会议时间

图片

2026年10月23日—25日

2

举办单位

图片

主办:教育部语言文字应用研究所

         武汉大学

承办:武汉大学文学院

         中国语情与社会发展研究中心

       《语言文字应用》编辑部

3

会议主题和议题

图片

会议主题:

语言文字应用研究的时代使命与创新发展

主要议题:

1.语言文字法治建设、政策与规划研究

2.国家通用语言文字高质量推广普及研究

3.中国语言学自主知识体系构建研究

4.数智时代的语言文字应用研究

5.全民语言文化素养提升研究

6.中文国际传播和国际中文教育高质量发展研究

7.语言治理能力与治理体系现代化研究

8.国家语言能力建设/语言资源建设研究

9.应用语言学理论与方法创新研究

4

投稿事项

图片

1.投稿要求:提交会议论文全文,英文撰写的文章请提供中文版;具体参见《语言文字应用》杂志格式要求;字数不限。将选择优秀论文在《语言文字应用》刊发。

2.截稿日期:2026年9月20日

3.报名链接:https://v.wjx.cn/vm/QZU1Ccw.aspx

报名二维码:

图片

4.联系邮箱:zgyq@whu.edu.cn

5

其他事项

图片

本次会议不收会务费,往返交通及住宿费用由参会人员自理,住宿地点由会议统一安排。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

刘海涛:计划语言的社会化与语言规划范式重构

2026年5月26日 00:00

刘海涛 2026-05-26 00:00 江苏

以下文章来源于:语言战略研究

语言战略研究

《语言战略研究》是我国第一份以语言政策和语言规划为主要内容的专业学术期刊,于2016年1月正式创刊。该刊由国家语言文字工作委员会指导,中国语言学会语言政策与规划研究会学术支持,商务印书馆主办出版。主编李宇明教授,执行主编郭熙教授。

语言的生命力源于社群互动的社会涌现。

2026年第2期

专题研究一

语言政策与规划知识体系构建

刘海涛

复旦大学文科资深教授,主要研究方向为语言规划、国际语语言学、数据驱动语言学、数字人文。

计划语言的社会化与语言规划范式重构

刘海涛

(复旦大学 外文学院 上海 200433)

提 要 为满足第一次全球化时期(约1870—1914)对跨国交流工具的需求,人们创造了300多种计划语言。其中,先后诞生于1880年和1887年的沃拉普克语与世界语尤为知名;前者风靡一时而又迅速消亡,后者成长为具有持续社会生命力的“活语言”。剖析其成败原因,沃拉普克语的创始人和使用者没有按照语言演化的规律来规划和使用语言,致使其因中心化权力垄断走向僵化;而世界语通过放弃个人权利、确立底层协议稳定性和文本驱动习得,实现了从纸面方案向社会事实的跃迁。对比二者的社会化进程可知,语言生命力根植于真实使用中的社会涌现,而非语法设计的机械完美。世界语的演化范式预演了当代大语言模型从“规则驱动”向“数据驱动”转型的技术逻辑。从本质上看,语言规划是一项社会工程,其成功关键在于能否实现从工程设计向生态培育、从行政控制向民主治理的范式转型。对计划语言兴衰历史经验的挖掘,可为数智时代的语言规划及人类命运共同体建设提供理论参考与历史镜鉴。

关键词   语言规划;计划语言;社会涌现;生命态;第一次全球化

一、引 言

从语言规划的视角看,语言不仅是抽象的符号系统,更是一个由个体主观能动性驱动的、具备生命态特征的复杂适应系统。人作为“生物人”与“社会人”的统一体,其移动性与创造性不断重塑着语言的边界。然而,当人类试图发挥主观能动性去干预、调节语言以适应社会需要时,我们必须直面一个核心命题:语言的演化规律究竟是预设的工程设计,还是社会交互中的自发涌现?

库珀(2020)认为,语言规划本质上是社会变迁的产物。每当历史步入剧烈变革期,既有的语言系统往往因运行惰性而难以满足新的社会需求。回顾历史,“第一次全球化”(约1870—1914)正是这样一个由于社会急剧转型而触发语言规划高潮的典型时期。这一时期见证了人类历史上首次“物理连接”与“制度共振”的交织,在“路通、规则通、钱通”的硬性需求下,人类还迫切需要实现“人(心)通”。对全球化“通用协议”的深切渴求,使那个时代演变为一个宏大的社会语言学试验场,各类语言规划的产物(计划语言)纷纷登台,竞相为多语的世界架设简单易行的沟通桥梁。

在众多方案中,沃拉普克语(Volapük)世界语(Esperanto)的兴衰史为我们提供了极具价值的研究案例。沃拉普克语是第一个社会化的计划语言方案,一度风靡全球,后又迅速消亡;与此同时,起步较晚的世界语却在动荡中展现出持续的生命力,成为唯一的全功能计划语言。本文通过对这两者的历史对比,试图剖析:为何一种计划语言能突破“纸面方案”的局限,成长为具有社会生命力的“活语言”?这不仅涉及语言本体规划的优劣,更取决于地位规划中权力结构的开放度,以及习得规划中由“语境驱动”向“生命演化”转型的深层逻辑。

长期以来,语言规划学科倾向于将语言视为可控的符号工程(刘海涛2023),这种基于工具理性的“工程设计范式”在解释语言生命力的动态演化时日益显现出局限性。本文以第一次全球化为视阈,通过对沃拉普克语与世界语命运分野的深层剖析,探究计划语言社会化的内在逻辑,并据此寻求语言规划范式的重构之道。这不仅是对历史经验的实证挖掘,更是对语言规划知识体系的一次本体论回归,即揭示语言如何从“设计态”方案跃迁为具有生命活力的“社会协议”,并探讨这种从规则驱动向数据驱动转化的演化规律,如何为数智时代的语言治理提供跨时空的镜鉴。

二、第一次全球化背景下的计划语言涌现

第一次全球化通常指19世纪中后期至第一次世界大战前这段时间(Daudin et al. 2010)。这一时期具有代表性的重大事件有:红十字国际委员会(1863、1876);跨大西洋电报电缆铺设(1866);苏伊士运河开通(1869);国际金本位制确立(1870年代);万国邮政联盟(1874);国际度量衡局(1875);《巴黎公约》(1883);柏林会议(1884—1885);《伯尔尼公约》(1886);跨洲铁路网的兴建(1885—1910);第二国际(1889);巴黎世界博览会(1889、1900);各国议会联盟(1889);国际和平局(1891);第一届国际卫生大会(1892);万国工业产权保护协会(1893);第一届现代奥运会(1896);海牙和平会议(1899、1907);跨大西洋无线电通信(1901);首届国际世界语大会(1905);国际电工委员会(1906);国际公共卫生局(1907);巴拿马运河开通(1914);《国际海上人命安全公约》(1914);等等。

(一)全球化格局对跨国交流工具的需求

这些事件勾勒出的第一次全球化图景,核心体现为“连接、规则、协作”三大特征,以及由此衍生的“路通、规则通、钱通、人(心)通”的“四通”格局。

这一时期,人类历史上首次见证了物理连接与制度共振的深度交织。苏伊士运河、跨洲铁路和海底电缆等巨型工程的落成,将世界编织进一张即时流动的物质与信息网络,彻底重塑了时空距离对贸易的约束,促使商品、资本与信息得以在大陆间以前所未有的速度自由流淌。伴随而来的是全球治理的“标准化驱动”阶段。从国际金本位制提供的统一金融语言,到万国邮联、度量衡局、《巴黎公约》(知识产权)等确立的行政准则,一套维系全球商业运转的共同规则体系在混乱中建立起来。最终,这种连接从经济领域外溢至社会精神层面。无论是红十字会的人道共识、奥运会的体育交流,还是世界语运动对语言壁垒的挑战,人类开始超越民族国家的界限,尝试进行全球性的协作与治理。这些物理层面的连接不仅重塑了全球贸易,更迫使人类在硬性的规则体系之外,寻求一种能够支撑全球协作的标准化符号协议。尽管这一体系最终在第一次世界大战的战火中戛然而止,但人类命运共同体的理想,在这一时期首次转化为大规模的现实尝试。

有关这一时期的贸易、投资、技术等领域的情况,已有很多研究了(Faubert 2012;Zinkina et al. 2019),这里我们主要关注人员流动情况。不仅因为“‘流动性’是解释与描写现代基本进程的核心词语”(Sloterdijk 2020:10),更因为人是语言人,因此流动的人是影响全球语言生态的主要力量,是全球性语言变革的源驱力。从交流和共同体形成的角度讲,是流动的人,特别是跨越语言边界流动的人,扮演了语言社会网络中的“弱连接”角色,联通了讲不同语言的小网络,使数千种人类语言形成了具有小世界特征的语言、文化、知识和文明的大网络与共同体。这一时期也在人类历史上首次形成了复杂的语言生态,有一种重现“巴别塔”的既视感。只不过那时是讲多种语言的人在梦想破灭后的分离,而现在是讲多种语言的人为了梦想又聚在一起。

(二)计划语言的辅助语范式与创制浪潮

那他们如何交流呢?没有有效的交流,是不可能构建一个真正的共同体的。换言之,第一次全球化时代在语言方面带给人类的真正挑战是:在现代国家意识日益增强的时代,在不同语言的人们可以更便捷地相遇和交流的时代,在保证不伤害印刷术革命带来的民族语多样性的前提下,人类如何自由地使用某种语言进行有效的交流?在这种情况下,“构成交流最基本成分的语言便成为吸引跨国改革者的一种媒介”(Rosenberg 2012:850)。请注意这句引语中的“跨国”(transnational)一词,这不仅是一个伴随第一次全球化于1916年诞生的新词,也是描述这一历史时期人类社会特征的一个热词,[1]它关注的是在跨越国家边界的人际交往日益增强的全球化时代,如何更合理地处理各种文化间的关系。所有这一切,使科学界与知识界均认识到:“民族语严重阻碍了人们在许多普遍领域的相互理解。如果要在跨国范围内共享信息,如果要让自然的、自发的全球一体化社会进程自由发展,就必须采用新的语言形式。”(Rayward 2014:16)当原有的民族语在跨国语境下因文化偏向和习得成本而凸显其局限时,计划语言作为一种理性的替代方案正式进入了历史视野。

[1] 参见Rosenberg(2012)。在这部系统阐述第一次全球化史的著作中,“transnational”(跨国)一词出现达353次,表明“跨国性”已成为界定这一时期社会协作与全球生活特征的核心概念。

于是,人们开始考虑什么样的语言才能满足全球化时代各国人民的跨国交际需要问题。理论上,这样的语言应该是中立的,因为只有中立的语言对所有国家的人来说才是公平的;这样的语言应该简单易学,但又富有表现力;这样的语言应该是辅助的,它存在的目的是帮助人们更好地进行跨国交际,而不是要取代任何现有的人类语言。用现在的话来说,这种语言应该是生态友好型的,它的引入不会也不应该破坏现有的人类语言和文化生态。这也标志着人类在语言规划上从管控向共生的转向,为后续从工程设计走向生态治理的范式转型埋下了伏笔。

显然,所有自然语言都无法满足上述要求,理论上,只有人类有意识创造的语言才可胜任这一角色,今天,我们一般将这类语言称为(国际)计划语言(Blanke 1985)。[2]据不完全统计,从2世纪到20世纪70年代,人类已经创造了900多种计划语言方案(Дуличенко 1990)。在这900多种方案中,有310种是在第一次全球化时期创制的。然而,方案的爆发并不等于生命的诞生。在近千种计划语言方案中,绝大多数仅能作为造语者的智力遗迹存在。

[2] 关于计划语言的基本问题以及计划语言对语言规划、自然语言处理和语言学的意义和价值,可参考刘海涛(1995,1996,1998,2004,2023)。

(三)计划语言从设计态向生命态的跃迁模型

在剖析这些计划语言命运分野的根源之前,有必要引入一套系统性的评估维度。布兰克通过对计划语言演进的深度观察,划定了计划语言成功的关键,即:实现从静态的“设计态”向动态的“生命态”的跃迁。他将这一社会化进程细化为19个微观步骤(Blanke 1985),我们可系统性地将其提炼为5个递进阶段:①方案构建,②组织萌芽,③实际应用,④结构稳定,⑤深层内化。依据此框架审视历史,近千种语言方案中的绝大多数均止步于雏形阶段;能够跨入组织化层面的“半计划语言”寥寥无几;唯有世界语穿越了全部路标,在完成社会化全路径整合的同时,至今仍以活语言的姿态砥砺前行。这套评估模型也为我们反思传统语言规划的工程设计范式提供了实证支点。它表明语言规划的成功不在于设计蓝图的完美,而在于其在复杂社会中的生存能力。

基于这一判准,我们将目光投向第一个开启大规模社会化进程的方案——沃拉普克语(Schubert 2023),去解析其如何触及了“生命态”的边缘,最终却又由于系统性的缺陷而迅速消亡。

三、沃拉普克语的社会化尝试与失败

1880年,德国人施莱尔用德语出版了一本标题为《沃拉普克语》(Volapük)的书(Schleyer 1880)。这本147页的出版物有一个拗口的副标题——“世界语,适用于全世界所有受过教育的人的通用语言方案”。

(一)沃拉普克语的理想与全球传播

施莱尔在开篇写道:“铁路、轮船、电报和电话的出现缩小了地球的时空,也大大拉近了世界各国之间的距离。人类日趋国际化,并寻求进一步的一体化。伟大的万国邮政联盟已使我们朝着这个美好的目标迈出了一大步。另外,在货币、度量衡、时区、法律和语言等方面,亲如兄弟的人类也应该越来越统一!希望现在这本小书能为大规模的语言统一提供第一推动力。继人类已在万国邮政实现一体化之后,也需在世界文字、世界语言和世界语法方面更统一!对人类而言,这无疑是精神和物质上的最大收获和进步。”

从这段话,不难看出那个时代的人对于由技术革命带来的世界大变革的期许——既然整个地球都变成了一个村庄,各个方面的统一和一体化似乎也应该近在咫尺。人是语言的人,语言是联结社会的纽带,那么,我们当然也需要一个简单易学、适合“地球村”的语言了。这种想法不是施莱尔一个人的,也是当时许多知识分子的想法。因此,施莱尔就适时为“全世界所有受过教育的人”创造了沃拉普克语(Volapük),这个词中的vol来自英语的world(世界),pük来自英语的speak(语),合起来便有了“世界语”的意思。由此也可看出,尽管沃拉普克语的词汇大多来自英、德等日耳曼语言,但由于经过缩减处理,人们很难辨认。然而,再难也难不倒全球化时代热盼国际语的人们。

据不完全统计(Kniele 1889),截至1889年,沃拉普克语在全世界约有283个俱乐部,1600名有证教师,25种期刊,用25种语言出版了316种教科书,其中有60本完全以沃拉普克语写成,学习者人数曾一度超过百万。“人类文明所及之处,如今已无人不知施莱尔之名。”(Schmidt 1986:11)一般认为,这个数字有夸大的成分。一本1901年出版的沃拉普克语使用者名录(Kausch 1901)只包括了不到3000人,其中有7人的地址在中国。

克尼勒(Kniele 1889)说,将沃拉普克语引入中国是1888年最引人注目的事情之一。比利时人阿尔斯特(Julius A. van Aalst)在厦门出版了《通用语言或沃拉普克语》(The Universal Language or Volapük)一书,并给中国人开设了培训班。同时,在天津、北京都有人开始传播沃拉普克语,以致阿尔斯特还给施莱尔写了封信说:“施莱尔的名字出现在了所有中国报纸上。”当然,我们有理由怀疑上面这句话中的“所有”一词,正如沃拉普克语没有像克尼勒书中最后一句话期待的那样“万岁”(Liföl volapüke),也没有实现1887年12月《谢菲尔德晚星报》所说的“在进入20世纪之前,四分之三的国际通信将用沃拉普克语进行”[3]

[3] 转引自Volapükabled zenodik. Monatsblätter der Weltsprache Volapük, 1888, 8(90): 393。沃拉普克语在厦门的推广与宣传还是有效的。在1895年7月14日《纽约时报》第13版,还刊登了一则厦门某商行打算发行国际货币的消息,在货币样品上印有汉字“通”和沃拉普克语“Mon bevünetik”的字样。

(二)私人产权意识与组织内部的分裂

事实上,就在1888年,克尼勒书中多次提到的在沃拉普克语运动中起到重要作用的利奥波德·爱因斯坦,带着他自己创办的纽伦堡世界语言协会放弃了沃拉普克语,转而支持另一种刚问世的计划语言。这次“转会”事件,标志着热闹了近10年的沃拉普克语开始走下坡路。这一点,也可以从媒体对于沃拉普克语的关注度看出来。我们以5年为时间段,用Volapuk作为关键词检索了美国报刊库,发现这个词在不同时期的出现次数:1880—1884(5),1885—1889(1398),1890—1894(715),1895—1899(314),1900—1904(312),1905—1909(434),1910—1914(441),1915年后则迅速减少以至于可以忽略不计了。这些数据表明,沃拉普克语虽然在短时间内获得了极高的国际声望,但这种繁荣更像是一场缺乏根基的文化风暴,而非稳固的语言生活实践。当新鲜感退去,其内部治理的弊端便开始显露。

施密特(Schmidt 1986)认为,导致沃拉普克语运动彻底崩塌的主要原因是施莱尔与曾任沃拉普克学院院长的凯尔克霍夫[4]之间的冲突。凯尔克霍夫主张对语言进行系统性简化和改革,以提升其实用性和传播力,但施莱尔拒绝修改。这一分歧引发了运动内部的分裂,导致大量支持者和协会转向改革派,严重遏制了沃拉普克语的发展势头。尽管施莱尔于1891年3月将凯尔克霍夫从沃拉普克语者名录中剔除,但期许的改革迟迟不来,导致使用者诸多不满,语言的核心支持群体锐减,语言失去传播能力,宣传几乎停滞,刊物数量大幅下降,组织体系逐渐解体。这标志着沃拉普克语作为国际语运动的实际终结。

[4] 凯尔克霍夫被广为人知的是其1883年提出的密码学原理:即使密码系统的任何细节已为人悉知,只要密钥未泄漏,它也应是安全的。

种种迹象表明,沃拉普克语始终停留在布兰克(Blanke 1985)所定义的“第二阶段”。它有组织、有学习者,但缺乏使用者自主创造的空间,未能进入更高层次。为什么人类历史上第一次计划语言社会化的实践持续的时间如此之短?在社会需求如此旺盛的时期,沃拉普克语为什么会昙花一现?是社会问题?还是语言本身的问题?抑或是创始人的理念问题?

如果用一句话来总结沃拉普克语的失败,那就是创始人和语言的使用者没有按照语言演化的规律来规划和使用语言。语言创制是一种全面的语言规划活动,一个人可以设计语言方案,但无法创造真正的人类语言,因为人类语言诞生于人际交互使用的过程中,只有正常的使用才能造就正常的语言。

施莱尔1880年的沃拉普克语第一本书的封面有这样一句口号:“一个人类,一种语言!”(Menadé bal, Püki bal!);然而,在版权页上却写着“一切权利归作者”。施莱尔自始至终都认为沃拉普克语是“他自己的发明”“他自己的财产”“他自己的孩子”,拒绝接受任何个人或集体改变沃拉普克语的建议。在推广语言和使用者组织方面,施莱尔把学习沃拉普克语的人分为了19级,用语言分级复制了社会阶层,进而给人造成一种错误的印象,认为学习沃拉普克语就是为了在这个人造的社会阶梯上登攀,而不是为了更好地与人进行交流。

施莱尔对权力的固守不仅导致了组织的瓦解,更封死了语言改进的可能性。当追随者发现自己无法参与语言的演进,而只能服从创制者的意志时,他们最终选择了离开。

(三)复杂的语法规则与习得难度的挑战

语言结构上,沃拉普克语的词汇虽然来自自然语言,但已被改得面目全非,无法辨认。更糟糕的是,这种修改几乎毫无规律可循,基本是由着施莱尔的性子来。这当然会增加使用者学用语言的难度。

在形态方面,沃拉普克语作为一种黏着语,其优点是形态变化很规则;缺点是变化太多,难以完全掌握。即使是沃拉普克语的权威学者卡尔·伦泽,在面对多达50万种可能的动词变体和毫无理据的词根时,也不得不感叹这门语言学起来确实太难:“倘若有教师罚学生抄写沃拉普克语中一个动词的所有变化形式,学生每4秒抄写一种形式,那么他必须连续不停地抄写整整20个昼夜,方能完成这项任务!”(Lenze 1886:27)伦泽的挫败感揭示了沃拉普克语作为“基于规则的专家系统”的致命缺陷。它可能只适合存在于词典和语法规则中,却难以“内化”在人类有限的认知网络中。这也许是人们后来发现就连施莱尔本人也不能完全流利地使用他自己创造的语言的原因,因为施莱尔也是人。沃拉普克语是人类历史上第一个大规模社会化的计划语言,无论是创始人还是使用者都有一种朴素的想法,那就是,语言没人用、用不好,就说明语言本身还不够好。于是,最好的解决办法就是从技术方面不断改进语言,而不是从社会组织方面、语言演化规律方面去找原因。

沃拉普克语运动衰落了,但沃拉普克语的追随者们修改语言的热情却持续了很长时间。“诚然,它已经死去,但也许重要的经验是,它曾经活过。”(戈尔金2022:130)作为人类历史上第一个大规模社会化的半计划语言,沃拉普克语值得青史留名。它的十年辉煌告诉我们,语言是可以规划的,人是可以有意识创造语言方案,并将其社会化为真正的人类语言的;但在社会化的过程中,要遵循语言的自然演化规律,要顺势而为。语言不是创始人的私产,而是所有使用者的共同财富。它的失败可以说是“内忧外患”合力作用的结果。“内忧”指的是源于内部的语言改革以及对于语言改革的态度,“外患”指的是受“内忧”困扰的使用者发现新出现的世界语几乎可以解决所有这些“忧虑”,于是转投新语言。沃拉普克语的兴衰揭示了一个深刻规律:语言的生命力源于社会实践,而非设计理念本身。沃拉普克语的失败也为后来的计划语言划定了红线。而此时,“满怀希望的人”正带着权利开放和逻辑简化的姿态,从沃拉普克语手里接过了人们对国际语的希望。

四、世界语的社会化与生命力的生成

1887年7月26日,华沙的一家小出版社出版了一本42页的俄语小册子(Д-р Эсперанто 1887),作者的名字为Esperanto博士,书名《国际语》[5],副标题是“前言与完整的教科书”。

[5] 后来,为了突出这本书的重要性,人们称其为世界语“第一书”(Unua Libro)。

(一)权利开放与Esperanto博士的希望

这本书的封面上有一句座右铭:“一种语言要成为世界语仅这么叫它是不够的。”比较独特的是,版权页上并没有人们习惯了的“所有权归作者”之类的字样,而是写着:“国际语同所有民族语一样是社会的公共财富,作者永远放弃对它的一切个人权利。”这与施莱尔将语言视为私人专利的立场形成了本质区别。在版权页上永久放弃权利,世界语创始人消解了计划语言社会化过程中的专利阻碍,为世界语成为一种公共语义协议扫清了法律与心理障碍。

Esperanto博士这本书的封面布局与沃拉普克语第一本书很相似,但二者的内容却很不一样。本来就不多的42页,其中绝大部分是前言之类的东西,主要是谈国际语的重要性、作者解决这个问题的基本思路、国际语传播等问题。严格来说,所谓的“完整教科书”只有13页:6(语法)+ 2(词典)+ 5(语言样本)。

两种语言的“第一书”在结构与作者权利的差异,本质上反映了两位创始人对计划语言认知的根本分歧。施莱尔将沃拉普克语视作一种已完成的、静态的通用语,在编撰教材时采取了传统语言教科书的体例,忽视了学习者从既有民族语言体系跨越到计划语言的认知门槛。而Esperanto博士则采取了截然不同的策略。他通过长篇序言与《承诺书》强化了学习者的心理接受度和社群归属感,并采用极简规则大幅降低了学习阻力,使学习者得以快速入门。

二位作者对“第一书”再版的态度差异,更进一步凸显了语言稳定性在本体规划中的重要性。世界语创始人有意识地没有再版“第一书”,而是通过后续出版的《世界语基础》冻结其核心内容,确立了语言的不可更改性。反观施莱尔,截至1888年持续修订再版至第9版,并始终强调只有最新版本有效。这种持续变动给学习者造成了极大的不确定性与负面印象。在一个追求稳定沟通协议的社群中,谁愿意投入时间学习一个“明天就可能作废”的语言?因此,尽管我们常说“没有最好,只有更好”,但对于语言,尤其是一种旨在建立全球共识的计划语言而言,稳定作为一种社会契约理应超越本体设计的持续完善。

在前言中,Esperanto博士给自己定下了这样的目标:语言应该简单,人们如同玩一样就能学会;学会它后,人们可以立即用它来与讲其他语言的人交流;语言应该是活的,它不仅是创造的结果,也应是随时可用的克服语言障碍的钥匙。因此,他也颇为自信地认为,人们可以在一小时内掌握这种语言的语法,可以轻松快乐地用几天时间就学会这种语言。根据书最后的两页词典,我们现在可以破译作者名Esperanto的意义:这是一个由esper(希望)、ant(正在进行)和o(名词结尾)组成的词语,合起来就是“满怀希望的人”。在中国,人们最早把这种语言译为“爱斯不难读”“爱世语”“万国新语”,后借用日语的译法“世界语”并延续至今。回到原点的话,“世界语”本来是沃拉普克语的名字,Esperanto博士的语言方案的名称是“国际语”才对。

尽管世界语的创始人多次强调他是独立创造这门语言的,而且其首个国际语方案早在1878年就已初具雏形,但他确实是熟悉沃拉普克语的。正如他本人所言:“当我已经完成了绝大部分工作的时候,沃拉普克语登场了。”[6]由于篇幅所限,我们这里不再细数世界语与沃拉普克语的关系(Neves 2012),只需回到世界语“第一书”封面和版权页的那两句话,为什么Esperanto博士会写那么两句话?难道不是对沃拉普克语社会化过程中所遭遇问题的有的放矢吗?版权页上的那句话说明,Esperanto博士已经充分认识到,任何语言都不是个人的财富,而是一种特殊的资源,即公共资源。如果它只属于创始人,那么注定无法成为人的语言。

[6] 这句话刊登于1889年出版的第一本世界语刊物《世界语者》(La Esperantisto)第1期第6页。

(二)规则稳定与用户社群的早期培育

然而,正如世界语“第一书”封面所说的那样,一种语言要成为世界语,仅仅那么叫它是不够的。像世界语这种计划语言,在推出之时,除了作者,世界上没有第二个人会了。语言是交流的工具,没人交流的话,即使你白送人,也不会有人要。这样一来,版权页上的那句话就成了空话。那Esperanto博士又是如何解决这个问题的呢?在42页小册子里面,有4页属于8份空白的《承诺书》。每份《承诺书》的正面写着:“我,用此签名,承诺:如果有1000万人也公开做出此承诺的话,我将学习Esperanto博士所提出的国际语。”签署后的《承诺书》可寄到Esperanto博士留下的一个地址。这个地址暴露了世界语创始人的真实姓名柴门霍夫(L. Zamenhof)。

这种签署即承诺的机制,本质上是在解决语言网络效应中的冷启动困境。它不是强迫个体学习,而是通过构建集体预期来培育潜在用户。这与沃拉普克语的等级晋升制度形成了鲜明的范式对比:前者是参与式驱动,后者是选拔式约束。

柴门霍夫认为,当签署《承诺书》的人达到1000万时,国际语的问题也就差不多解决了。这样的想法显然有些天真,因为即使在139年后的今天,世界语的日常使用者也没有1000万。但毫无疑问,柴门霍夫的方法是一种讲道理的方法,是一种可操作的方法。于是,“国际语”和空白《承诺书》带着人类的希望走向了世界。柴门霍夫也开始履行自己的承诺,公开他收到的《承诺书》签署人的名址。

1889年开始,柴门霍夫通过各种渠道开始出版一种叫作《地址录》(Adresaro)的名录。截至1908年,《地址录》共收录了21 915位世界语学习者的名址信息。后来因为学习者增长太快,就不再以个人名录形式出版,而改为组织名录了。根据《地址录》统计,世界语学习者总数在1897年达到了4000人,用了10年时间;接下来的4000人仅用6年,后来用的时间越来越短——4年,1年,5个月……当然,还有很多人,可能就懒得写信给柴门霍夫通报自己的情况。《地址录》含有世界上最早学用世界语的2万多人的地址信息。这些信息,不仅是人名的堆砌,更是构建了一个透明的社会化网络。在1889年出版的第一本《地址录》中,就记录了一位居住在中国的使用者:皮尔斯·埃塞克斯·奥布莱恩·巴特勒(Pierce Essex O’Brien Butler)。在所有《地址录》中,共记录了29个中国的名址。这也表明这种基于个人联系的去中心化传播,已具有超越国界的“生命态”特质。

(三)民主公投机制与语言核心规则的确立

柴门霍夫在世界语“第一书”前言的最后,谈到了自己对于语言改革的意见。他首先明确指出,自己的这个语言不是完美的,也不是不能改的。因此,他请大家在一年内将修改意见寄给他。当然,这些修改不能违反世界语结构的基本原则。然后,他将整合修改建议并确定语言的最终形式。最终形式一旦确定,而且语言已被人普遍使用,就是他本人也没有修改的权利了。但修改的权利可以由一个更加权威的世界语研究机构来进行。

从沃拉普克语毁于不断改革的教训中,柴门霍夫意识到语言不能总是改革,但作为一种带有“计划”特质的语言,其追随者们有更大的改革之心也是可以理解的。在各种压力下,柴门霍夫在1894年的《世界语者》杂志上提出了“世界语”改革方案,主要内容有:废除所有带变音符号的字母(如ĉ, ĝ, ĥ, ĵ, ŝ, ǔ);废除宾格(-n),改为通过语序确定宾语;名词复数后缀由-j改为-i;取消形容词与名词性、数的一致性要求;取消定冠词la;词汇更加拉丁化等。与施莱尔不同的是,柴门霍夫选择了世界语使用者公投的方式来决定是否要修改语言。投票结果表明,绝大多数使用者不同意对语言进行任何改动。面对这种结果,柴门霍夫虽然在理论上对某些改革(如废除宾格)持开放态度,但他表示尊重投票者的意愿。

于是,他在1894年11月的《世界语者》上宣布:“世界语应完全保持其现有形式,不做任何改动。”(La lingvo Esperanto devos tute sen ia ŝanĝo resti en sia ĝisnuna formo.)公投结果表明,语言的生命力源于使用者的稳定性预期。社群宁愿接受一个不完美的方案,也不愿忍受一个频繁变动的实验品。柴门霍夫尊重民意终止改革方案的实施,标志着世界语从创始人的“设计态”正式转化为社群共有的“生命态”。

这次投票也说明,世界语社群更倾向于维持稳定性,而非追求理论上的完美语言。因为世上没有完美的语言(Eco 1993),更因为参与者意识到,频繁的变动会毁掉一个新生的交流系统,正如沃拉普克语所经历的那样。这次投票结果直接促成了1905年《世界语基础》(Fundamento de Esperanto)的出版。该书规定了语言的核心规则不得修改,确保世界语不会重蹈沃拉普克语因改革问题而导致的频繁内斗、进而分裂的覆辙。这本书还收录了已在世界语者间广泛流传的练习册、词典和16条语法。在前言里,柴门霍夫强调了3点:“这本书起着世界语发展统一的纲领性作用。为了世界语的统一,每一个世界语者都应当好好了解、熟悉这本书;世界语的基础永远都是不可触动、不能改变的;如果需要改变,得有一个权威的机构来做决定。”这3点基本延续了他在“第一书”中关于语言的稳定与发展关系的观点。换言之,《世界语基础》的“不可触动性”意味着语言规划中“底层协议”的冻结,这为语言在更高层级的“自发演化”打下了稳固的基础。

同年8月5—13日,第一次国际世界语大会(Universala Kongreso)在法国布伦召开,来自20个国家的688人参加了这次大会。会上,通过了《世界语主义宣言》。其中第4条是这样说的:“世界语没有立法者,也与某个特定的人无关。世界语创始人的意见和著作,如同其他世界语者的意见和著作一样,绝对只有个人的特质,对任何人没有强制性。所有世界语者唯一应遵守的,就是《世界语基础》。”这不仅是单纯的学术主张,也奠定了语言所有权社会化的基础。

(四)跨国协作模式与历史遗产的继承

从语言发展的角度看,尽管世界语没有完全达到创始人预设的目标,但139年的时光已将世界语从一本40页的小册子变成了一种使用者总数约200万、分布在120多个国家和地区的人类语言(Wandel 2015)。布兰克认为世界语取得相对成功的原因(Blanke 2009),除了在结构方面语言系统具有适应社会需要的能力之外,更重要的是,柴门霍夫清醒地认识到,语言是一种社会现象,推动语言发展的动力是使用者形成的言语社区,因此,如何构建和维持一个言语社区稳定发展的语言统一基础就尤为重要了。换言之,经过分散在世界各地的语言使用者的共同努力,在《世界语基础》的基础上,他们创造了人类有意识参与语言演化的奇迹。

在组织与行动方式上,世界语运动也创造了人类历史上一种独一无二的跨国运动模式,即“在世界社会缺乏集中的政治和文化权威的情况下,世界语运动帮助建立了一个世界一体主义的意识形态框架,并为其他行为者,特别是其他国际非政府组织所利用和采纳”(Boli & Thomas 1999:147)。世界语的发展轨迹,尽管坎坷,但却较完美地对应了布兰克(Blanke 1985)所描绘的语言社会化过程:它不仅提出了清晰方案(①),建立了全球学习网络(②),更关键的是鼓励用户自由创作(③)、推动口语实践(④),并最终实现了代际传递(⑤)。正是这种由下而上的共建机制,使其摆脱了“人造项目”的标签,成长为一种真正意义上的“活语言”。

值得注意的是,世界语的成功也与吸取沃拉普克语失败的教训有很大的关系。时至今日,一些源于沃拉普克语运动的要素仍存在于世界语者的语言生活之中,如年度世界性大会、会歌、各种协会网络、语言研究院等(Haupenthal 2012:76)。为此,“世界语者已不再把沃拉普克语看作自己的竞争对手,而将其视为一位值得尊敬的先驱。沃拉普克语是第一个社会化了的计划语言,即使只有极少数地球人知晓这一点,它仍是全人类的共同财富。我们不应任由这一宝贵财富就此消逝”(Cherpillod 2003:3)。“我们须以对待古希腊语或古撒克逊语的态度来珍视沃拉普克语。保护这份人类语言遗产,正是我们的责任。”(Bishop 2012:2)对于语言规划研究者而言,这一点尤为重要。因为我们没有理由忘记,1889年8月在巴黎举行的沃拉普克语大会,这是人类历史上首次以计划语言为唯一交流语言的国际大会。这不仅是语言学史上的奇迹,更是语言规划梦想照进现实的高光时刻。世界语对沃拉普克语遗产的尊重,体现了语言规划史的连续性,沃拉普克语开创了社会化的先河,世界语则完成了生命化的转型。

五、语言规划的社会工程本质

世界语和沃拉普克语的诞生,是第一次全球化时期人类主观能动性与时代需求碰撞的产物。面对日益凸显的国际交流障碍,这两种语言可视为“生物人”的认知能力与“社会人”的协作需求共同作用的产物。

(一)语言规划的社会工程属性

计划语言方案在这一时期的集中出现,一方面反映了全球化进程中社会协作的迫切需要,另一方面也精确地映射了当时尚未定型的地缘政治格局:那是一个英国略微领先,法、德紧随其后,美国崭露头角的时代,还没有任何一种语言独霸全球。这种多元竞逐的权力真空,为人类有意识地创造理想的国际语提供了宝贵的土壤,为世界语等计划语言的社会化提供了历史空间,更为计划语言从私人方案向社会公约的跃迁提供了动力。这也说明语言规划的本质不仅是符号设计,更是社会关系的重组。

从人类交际工具的角度看,一旦计划语言完成了完全的社会化进程,除了拥有一个明确的“生日”之外,它与自然语言的根本区别便微乎其微。最新的认知神经科学研究表明(Malik-Moraleda et al. 2025),人类处理高度社会化后的计划语言时,所用的认知与神经机制与处理自然语言时并无二致。既然如此,那么规划的成败便不再取决于语法的精妙和词典的厚度,而更取决于其能否在复杂的社会生态中成功落地并开始内生演化。

计划语言的兴衰过程,本质上构成了一场关于“人类主观能动性在语言变革中的作用”的宏大社会实验。这场实验既展现了人类超越民族界限、追求普遍沟通的强大意志,也暴露出语言作为深层文化载体所固有的惰性。从语言规划的专业视角来看,沃拉普克语和世界语的兴衰史提供了一个极具价值的研究案例。两者同为19世纪末第一次全球化背景下旨在解决跨文化沟通障碍的产物,却因在规划理念、管理机制和对语言认知规律顺应程度上的截然不同,最终导致了天壤之别的命运分野。基于这两种计划语言的社会化实践,我们有理由说,语言规划从来不只是语法规则的制定或词汇系统的发明,它本质上是一项社会工程。这一过程涉及地位配置的权力让渡、本体干预范式的转型以及习得机制的语境化。

(二)沃拉普克语与世界语的成效对比

沃拉普克语与世界语的兴衰对比表明,决定计划语言成败的关键,并非其结构是否科学和逻辑,而在于其规划方式能否实现从个人方案向公共实践的跨越。为了厘清两种范式的差异,表1从权利配置、干预范式与生成机制3个维度,揭示了控制型规划与涌现型规划的异同。从中可以清晰地看到:语言的生命力与设计本身有关,但更取决于它能否在社会互动中获得生长的土壤。

总的说来,沃拉普克语和世界语的社会化实践告诉我们,语言不是机器,不可由一人设计、操控;语言是生命,需在使用中生长,在交流中演化。“语言不是个体的,而是集体的,社会是将个人言语晶化为集体语言的熔炉。”(刘海涛2025:191)世界语之所以能穿越百年风雨,正在于它逐步完成了从“方案”到“内化”的全过程。而沃拉普克语的失败,则是一个停留在前中期阶段的典型案例。这再次证明,人类语言不是设计出来的,而是在千万次真实互动中“长”出来的;它的生命力,永远根植于使用者的集体实践之中。换言之,语言规划与政策的本质,不在于“规定什么”,而在于“如何让语言更好地服务于人”。

有意识的语言干预是可能且必要的,但其成功与否取决于是否顺应语言发展的内在规律,且干预必须适度。任何成功的语言规划,本质上都是对语言演化规律的尊重。语言规划的成功不在于设计的完美程度,而在于管理的民主程度。有意识的干预只能在语言的“基础框架”层面进行,一旦语言进入流通领域,规划者就必须退居幕后,让位于使用者的集体智慧。语言规划必须顺应使用驱动和社群共建的规律。试图通过权力结构强行规定语言发展,是对语言本质的误读。语言规划,无论针对的是计划语言还是自然语言,都应建立在多方参与、协商一致的基础上,避免个人意志凌驾于社群之上。简言之,沃拉普克语死于控制,世界语活于放手。这一规律要求规划者实现角色转变,从试图主宰每一个语法规则的立法者,转变为提供底层协议并保障演化空间的生态培育者。只有当语言真正属于使用者时,它才有了生命力。这两种计划语言的社会化历程也表明,语言规划应顺势而为,这个“势”就是语言作为一种人驱复杂适应系统的运作规律(刘海涛2024)。

(三)从规则驱动向数据驱动的范式转型

另外一个必须提及的本质区别是,1888年出版的《国际语第二书》(Dua Libro de l’ Lingvo Internacia,以下简称《第二书》)就是20篇用世界语写成的文章合集(Dr. Esperanto 1888)。柴门霍夫认为学习者应该重复学习这些文章,这样可以更好地掌握语法规则,理解词汇的意义和词缀的用法。这种通过大量文本的学习来获得语言知识、形成“语感”的方法,有力地推动了语言的社会化,也在一定程度上避免了语言的方言化(刘海涛2005)。今天,这种方法也已被用在以大语言模型为代表的人工智能领域。沃拉普克语注重词典编纂,本质上是试图构建一套基于规则的专家系统,这导致了习得过程中的认知超载。而世界语通过《第二书》提供的语料,实质上是在进行基于语境的数据驱动的语言演化。这种差异决定了语言是作为死代码被封存,还是作为生命体被激活。我们认为,这才是世界语得以成功的秘诀,因为只有这样“使用创造语言”才能落地,才能让语言真正活起来。

对比今天盛行的大语言模型的工作机理,我们可从以下3个方面来解读二者的异同。(1)从逻辑演算向模式识别的跃迁。沃拉普克语的失败,很大程度上在于它采用了一套冻结的静态逻辑。它的创作者施莱尔将语言视为一种基于词典和语法的数理演算。学习沃拉普克语就像在查表拼图,学习者始终在处理符号映射,而难以形成真正的“语感”。相比之下,柴门霍夫在《第二书》中的20篇文章,实质上是世界语历史上第一个“对齐数据集”。这个数据集不仅有助于语义涌现,也有益于形成柴门霍夫反复强调的“语感”,因为词汇的意义不能只靠词典,更需要它在句子中的邻居来锚定。通过重复阅读,学习者大脑中建立的是概率分布和关联模式,而不仅仅是语法规则。当学习者不再思考这些规则,而是能直接预测下一个词的出现时,语言就实现了从代码到意识的跃迁。(2)从硬性干预向预训练演化的跨越。沃拉普克语类似早期的基于规则的专家系统。这种系统非常脆弱,一旦遇到规则之外的表达就会崩溃,且学习曲线极其陡峭。世界语则类似大语言模型,虽然有基础架构,但真正的灵魂在于语料的喂养。柴门霍夫通过《第二书》和后续的大量翻译与原创作品,为世界语提供了最初的“预训练数据”。这种方法允许语言在实际使用中产生微小的“变异”和“优化”,从而获得了生命力。(3)从中心化指令向去中心化协议的转换。语言本质上是一种社会协作的协议。沃拉普克语的权力高度集中在创作者手中,规则的修改是行政命令式的,导致了社群的分裂。世界语通过《第二书》的范文,建立了一个去中心化的语义标准。因为所有早期的世界语者都“学习”过同一批高质量文本,他们在交流时即便遇到了新词,也会根据这些范文所确立的“风格”和“上下文”进行推断。这种“共识算法”使得世界语在没有任何国家强制推广的情况下,依然能保持全球范围内语义的一致性。

至此,我们不难明确:语言的生命力并非取决于其“说明书”(词典与语法书)的详尽程度,而在于它能否提供足够的语境样板,支撑社群进行大规模的自适应演化。这种从规则驱动向数据驱动的范式转移,不仅解释了世界语成功的原因,更为数智时代的语言治理提供了底层逻辑,即:真正的语言战略,其核心在于语境的动态释放与社群的话语赋权,而非意义的静态规约与权力的单向垄断。

六、结 语

本研究表明,语言的生命力本质上是一种社会涌现现象。它不由单一创始人的智力边界决定,也不取决于语法结构的机械完美,而是在成千上万使用者的真实互动中逐渐淬炼而成。沃拉普克语的兴衰是一面历史的镜子,映照出中心化控制与权威垄断对语言演化的根本桎梏。这警示我们,语言规划一旦沦为封闭的专家系统,它便失去了自我更新的能力,从而难以在复杂多变的社会中生存。

世界语的跨世纪实践,本质上完成了一次从工程设计范式向生态培育范式的底层重构。创始人柴门霍夫通过放弃权利的地位规划,将语言从实验室的专利方案转化为社区共建的公共协议;通过语料驱动的模式,完成了从规则灌输向语感培养的习得转向。这一过程与当代大语言模型的智能跃迁模式呈现出惊人的同构性,二者都遵循语境先于规则、使用塑造结构(语义)的逻辑。世界语早期的社会化历程,正是一场跨越百年的“基于人类反馈的强化学习”,它证明语言规划的知识体系不应仅筑基于静态的词典条文和语法规则,更应扎根于语言社群命运共同体的呼吸之中。

这种从设计态向生命态的范式转型,为未来的语言战略提供了深刻的启示。特别是世界语通过文本语料释放语境的路径,为我们在算法时代理解智能涌现提供了历史坐标。有效的语言规划应从单纯的符号干预转向深层的生态改良:[7]在语言保护中,不应仅满足于博物馆式的档案存证,而应通过激活日常使用让语言在生活中自愈;在国际推广中,不应仅追求标准化的指标覆盖,而应鼓励去中心化的文化共创;在数智时代,面对人类与AI共生的语义空间,政策重心应从内容管制转向机制创造,探讨如何构建让多元语言自然生长的肥沃土壤。

[7] 刘海涛(2023:64—85)指出,“从语言问题向语言生态的转向”是20世纪50年代以来语言规划学科最重要的范式变迁之一。在这本书中,“生态”与“世界语”分别出现158次与370次,这种关键词的共现并非巧合,而是映射了计划语言研究在当代语言治理与生态视域下的理论回归。

回顾这段历史,本文以第一次全球化为视阈,通过剖析计划语言社会化的兴衰细节,萃取普适的演化规律,以期实现语言规划范式的重构。这种对历史经验的实证挖掘,最终指向了语言规划知识体系的一次本体论回归,即:承认语言的生命力并非来自有意识的精密设计,而是源于社群互动的社会涌现。

理想的语言生态是构建人类命运共同体的基石。计划语言这种具备生态属性的交流工具,不仅是第一次全球化留下的未竟遗产,更是数智时代重塑人类协作体系的理论参照。尽管现实常让理想蒙尘,但推动文明前行的始终是那份“Espero”(希望)。“满怀希望的人”之所以伟大,不在于他已经到达了目的地,而在于他即使知道前路艰辛,依然选择在巴别塔的废墟上继续播种。计划语言的命运与人类的命运是同构的。在AI构建的算法银河中,这种对平等与理解的向往,依然是指引我们通往“心通”未来的恒久心灯。希望永存,因为交流不止。

本文系复旦大学“数字人文和语言计量实验室”研究成果。

该文发表于《语言战略研究》2026年第2期,参考文献从略,引用请以期刊版为准,转发请注明来源。

编排:韩   畅

审稿:王   飙 余桂林

相关推荐

 《语言战略研究》入选为CSSCI(2025—2026)来源期刊

《语言战略研究》入选为CSSCI(2023—2024)来源期刊

《语言战略研究》入编《中文核心期刊要目总览》2023年版语言学类核心期刊

《语言战略研究》2026年第1期目录与提要

《语言战略研究》2026年第2期目录与提要

时隔25年首次修订!新修订的《中华人民共和国国家通用语言文字法》颁布

张日培:语言功能规划视角下的新时代语言立法

叶强:国家认同视域下的《国家通用语言文字法》修改

张振达:《国家通用语言文字法》研究的回顾与思考

何俊芳,郭亚星:当代俄罗斯的语言立法与语言关系发展

约稿启事丨“国际中文教育”专题(每年一期)

约稿启事丨“汉语哲学”专题(每年一期)

约稿启事丨“中原语言与黄河文明”专题

约稿启事丨“语言文字标准化”专题

约稿启事丨“语言与文学”专题

约稿启事丨“语言文明”专题

约稿启事丨“人工智能与语言研究革新”专题

约稿启事丨“术语规划”专题

本刊从未与任何第三方合作从事征稿、审稿及发稿活动

从不以任何形式收取版面费、审稿费

请认准本刊官方网站界面→

图片

编辑部联系方式 

电话:010-65219062,010-65219060    

电子邮箱:yyzlyj@cp.com.cn

地址:北京市东城区王府井大街36号    

投稿网址:yyzlyj.cp.com.cn

订阅方式 

1.全国各地邮局订阅,邮发代号:82-104.    

2.网店订阅:

(1)商务印书馆官方微店  (关注商务印书馆微信公众号;点击公众号页面底部的“官方微店”;在微店中搜索“语言战略研究”即可下单)

(2)商务印书馆京东旗舰店 (登录旗舰店,搜索“语言战略研究”即可下单)   

3.中国邮政—微商城(微商城中搜索“语言战略研究”,即可预订全年)

图片

↓↓↓点击“阅读原文”可访问本刊官网

阅读原文

跳转微信打开

校经工作的恐慌,杜泽逊教授为本刊撰写的学人寄语,载《中国文化》2026年春季号

2026年5月25日 00:00

徐惠 2026-05-25 00:00 江苏

杜泽逊撰文感慨校经工程耗时漫长,年岁渐长恐难如期完成。

转载自“中国文化杂志社”

深研中华文化  阐扬传统专学

探究学术真知  重视人文关怀


校经工作的恐慌

杜泽逊

我主持的《十三经注疏汇校》,开始于2012年3月。学习清代阮元,计划利用阮元没有见到的版本,加上前人校勘成果,予以系统性增补,形成“升级版”。这一宏大计划,得到山东大学儒学高等研究院王学典院长以及院学术委员会大力支持,被立为该院重大项目,给予八十万元巨额资助。我组织了“校经处”,带领团队(主要是研究生)坐班校勘,无间寒暑,不分昼夜。经过十四年努力,完成了《尚书注疏汇校》《周易注疏汇校》《毛诗注疏汇校》三部,《礼记注疏汇校》马上进入后期汇总阶段。《尚书注疏汇校》九册,中华书局出版后,获得山东省特等奖,教育部一等奖,这是中国文科科研成果最高荣誉。《毛诗注疏汇校》篇幅很大,我需要逐字逐句最后定稿。可是担任山大文学院院长近六年,除了必须的教学、指导研究生、主持几个科研项目正常运转之外,几乎没有任何时间用来为《毛诗注疏汇校》定稿。2023年底文学院院长卸任,接任《文史哲》主编,本应腾出一点时间,可是各种会议、讲学、评审,越来越多,《毛诗注疏汇校》又搁置两年,几次试着拿起来,旋即放下。今年春节后,下大决心拿起来,零零星星看完了卷一之一到卷一之四,四个子卷。第四个子卷我记录了起止日期,正好一个月。《毛诗注疏》共七十个子卷,就算坚持不放,也要70个月。我已63岁,70个月大约六年,就69岁。正式出版就要70岁开外了。《礼记注疏汇校》目前就要进入汇集阶段,它的篇幅和《毛诗注疏汇校》差不多,究竟还有多少精力去定稿呢?就目前看,我的宏大计划难以如愿。我为什么恐慌,“子在川上曰逝者如斯夫!”我要从忙乱中安静下来,下定决心学会说“不”。

2026年4月30日于山东大学校经处

杜泽逊山东大学讲席教授


中国艺术研究院主办     刘梦溪主编

欢迎订阅  中国文化  大型学术期刊

每年推出春季号、秋季号两期,每期50万字

社址:北京市朝阳区来广营西路81号

邮政编码:100012  电话:010-64813408

电邮:culture@china.com

国际标准刊号:ISSN 1003-0190

国内统一刊号:CN 11-2603/G2

邮发代号:80-617 国外发行代号:8006 SA

全国各地邮局均可订阅

定价:人民币50元  港币50元  新台币260元

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Hinton 最新表态:AI 的下一个数据源,可能根本不在互联网上!

2026年5月24日 00:00

图灵硅硅 2026-05-24 00:00 江苏

以下文章来源于:林叔说事

林叔说事

聚焦热点,深度解析,用心讲述每一个故事

Hinton 最新表态:AI 的下一个数据源,可能根本不在互联网上!

导读
【导读】深度学习教父 Geoffrey Hinton 近日在一段视频中直言:AI 未必被人类数据锁死。AlphaZero 靠自我博弈创造了无限训练数据,数学也是同理——他相信大语言模型最终也会走上这条路。从 AlphaGo Zero 以 100:0 碾压前代冠军,到 AlphaProof 拿下 IMO 银牌,DeepMind 已经反复证明:不靠人类数据,AI 照样能变强。但 LLM 能复制这个奇迹吗?关键卡在一个东西上:验证器

「它们可以生成无限数据,不需要任何外部输入」

最近,X 用户 Haider(@haider1)发布了一段约 42 秒的 Hinton 视频片段。

在这段视频中,这位图灵奖得主、深度学习教父直接点明了一个很多人一直在回避的问题:AI 继续变强,到底还需不需要人类数据?

Hinton 的回答很干脆。他以 AlphaGo 和 AlphaZero 为例:

"If you look around for what AI systems don't have any problems with data limits, one example is AlphaGo, Alpha0, where they're playing games."

「如果你看看哪些 AI 系统不受数据上限困扰,一个例子就是 AlphaGo、AlphaZero——它们在下棋。」

"They play against themselves… they can generate infinite amounts of data. They don't need any external data put in."

「它们和自己对弈……可以生成无限量数据,不需要外部输入。」

Haider 发布的 Hinton 视频片段(分段1)Haider 发布的 Hinton 视频片段(分段2)

▲ Haider(@haider1)在 X 上发布的 Hinton 视频片段

然后他把话题引向数学:

"Mathematics is kind of a closed system. You can make conjectures, see if you can prove them… with no external input of data."

「数学某种程度上是一个闭合系统。你可以提出猜想,尝试证明……不需要外部数据输入。」

最后,他给出了自己的判断:

"Those kinds of systems can run all the time and get smarter and smarter. And I believe that's going to happen with large language models eventually."

「这类系统可以一直运行,越来越聪明。我相信大语言模型最终也会如此。」

42 秒,Hinton 画了一条清晰的路线图:从棋类的自我博弈,到数学的闭环验证,最终指向 LLM 的未来。

AlphaGo Zero:100 比 0 碾压前代,全程零人类数据

Hinton 提到的第一个例子,已经被 DeepMind 用论文和实验反复验证。

2017 年,DeepMind 在 Nature 上发表了 AlphaGo Zero。这个系统和之前的 AlphaGo 有一个根本区别:它完全不用人类棋谱。

论文摘要写得明明白白:

"An algorithm based solely on reinforcement learning, without human data, guidance or domain knowledge beyond game rules."

「仅基于强化学习,不使用人类数据、指导或游戏规则之外的领域知识。」

结果?从白纸开始的 AlphaGo Zero,以 100:0 的比分击败了之前战胜世界冠军的 AlphaGo。

Nature AlphaGo Zero 论文页面

▲ Nature 论文《Mastering the game of Go without human knowledge》

论文里还有一处值得注意:

"AlphaGo becomes its own teacher."

「AlphaGo 成为了它自己的老师。」

一年后,DeepMind 把这套逻辑推广到了更多棋类。AlphaZero 作为一个单一系统,从零开始学会了国际象棋、将棋和围棋:

"An untrained neural network plays millions of games against itself via a process of trial and error called reinforcement learning."

「一个未经训练的神经网络通过与自己进行数百万局对弈,用试错式强化学习来学习。」

DeepMind AlphaZero 官方博客

▲ Google DeepMind AlphaZero 官方博客

这里的核心在于:棋盘环境规则明确,胜负可判定,系统可以无限生成对弈数据。人类棋谱反而成了束缚——AlphaZero 不用人类棋谱,意味着它不被人类惯例所限制。

数学:下一个被攻破的闭合系统

如果说棋类是 Hinton 类比的起点,那数学就是他指向的下一站。

2024 年 1 月,DeepMind 发布了 AlphaGeometry,专攻几何问题。这个系统面临的核心挑战和 AlphaGo 当年一样:训练数据不够。

DeepMind 的解法同样激进——自己造数据:

"By developing a method to generate a vast pool of synthetic training data - 100 million unique examples - we can train AlphaGeometry without any human demonstrations, sidestepping the data bottleneck."

「通过开发一种生成海量合成训练数据的方法——1 亿个独特样例——我们可以在不用任何人类演示的情况下训练 AlphaGeometry,从而绕开数据瓶颈。」

DeepMind AlphaGeometry 官方博客

▲ Google DeepMind AlphaGeometry 官方博客

1 亿个合成样例,零人类演示。数据瓶颈就这样被绕过去了。

但 AlphaGeometry 的突破点在于它的架构:神经语言模型负责"直觉",符号推理引擎负责"检验"。生成的每一步推导,都要经过形式逻辑的审核。

半年后,DeepMind 更进一步。2024 年 7 月,AlphaProof 亮相,直接挑战国际数学奥林匹克(IMO)——6 道题做出 4 道,达到银牌水平。

"AlphaProof is a system that trains itself to prove mathematical statements in the formal language Lean."

「AlphaProof 在 Lean 形式语言中训练自己证明数学命题。」

DeepMind AlphaProof / IMO 官方博客

▲ Google DeepMind AlphaProof 在 IMO 中达到银牌水平

AlphaProof 的路线非常清晰:预训练语言模型 + AlphaZero 式强化学习 + Lean 形式化验证。模型提出证明,Lean 检查对不对。对了就强化,错了就调整。

DeepMind 在博客中点出了关键:

"Formal languages offer the critical advantage that proofs involving mathematical reasoning can be formally verified for correctness."

「形式语言的关键优势在于:涉及数学推理的证明可以被形式化地验证其正确性。」

这就是 Hinton 说"数学是闭合系统"的底层逻辑:有了形式化验证器,模型的输出可以被机器自动判定对错。和棋盘上的胜负判定如出一辙。

验证器:这条路线的真正门槛

Hinton 的判断在社区里引发了明显分歧。

支持者认为,一旦模型能自己生成并验证数据,scaling 就不再依赖互联网文本。有开发者总结得很到位:

"For LLMs the missing piece is strong verifiers: math, code, simulators."

「对 LLM 来说,缺少的就是强验证器:数学、代码、模拟器。」

但边界也同样明显。

有人指出,数学和棋类共享一个多数真实世界任务不具备的东西:内置的验证函数。棋有规则和胜负;形式化数学有 proof checker。但现实世界的政策制定、商业决策、社交互动、科学实验——没有这么便宜、准确、即时的反馈函数。

还有人提出了更尖锐的问题:模型能无限生成真命题,但真命题和有价值的命题之间隔着巨大鸿沟。系统可以产出十亿个正确的定理,其中可能没有一个有趣——方向感、研究价值、创新性,这些仍然需要外部评价标准。

更根本的质疑在于:AlphaGeometry、AlphaProof 都是高度专用的系统,配备了符号推理引擎、形式语言和精心设计的强化学习流程。从这类专用系统到通用聊天 LLM,中间的鸿沟远比表面上看起来大得多。

合成数据本身不难生成,难的是判断这些数据到底在提升推理能力,还是在强化错误。

从棋盘到 LLM:一条看得见但还没走通的路

把 Hinton 的 42 秒视频放回更大的时间线里:

2017 年,AlphaGo Zero 证明了在规则明确的棋盘上,纯自我博弈可以达到超人水平,完全不需要人类数据。

2024 年,AlphaGeometry 和 AlphaProof 证明了在形式化数学中,合成数据 + 强化学习 + 形式验证器的组合同样能突破数据瓶颈,拿下 IMO 银牌。

现在,Hinton 把这条线延伸到了 LLM,说他相信"大语言模型最终也会发生同样的事"。

这个判断的分量在于,它背后有实打实的技术验证。但它的边界也同样清楚:每一次成功突破,都发生在有强验证器的闭合环境里。

LLM 要走通这条路,核心在于能否把代码执行、数学证明、物理仿真、工具调用变成可靠的反馈信号。多抓几 TB 网页文本,解决不了这个问题。

AI 的下一个数据源,可能真的不在互联网上。但它也不会凭空出现——它需要被构建出来。


— END —

— END —

阅读原文

跳转微信打开

即将截稿 | 第二十五届中国计算语言学大会(CCL 2026)征稿启事

2026年5月23日 00:00

CCL 2026 2026-05-23 00:00 江苏

第二十五届中国计算语言学大会(CCL2026)10月宜昌举办,现即将截稿。

转载自“中国中文信息学会”

第二十五届中国计算语言学大会(The 25th China National Conference on Computational Linguistics, CCL 2026)将于2026年10月15至18日在湖北省宜昌市举行。中国计算语言学大会创办于1991年,由中国中文信息学会计算语言学专业委员会主办。经过30余年的发展,中国计算语言学大会已成为国内自然语言处理领域权威性最高、规模和影响最大的学术会议。作为中国中文信息学会(国内一级学会)的旗舰会议,CCL 聚焦于中国境内各类语言的智能计算和信息处理,为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。

会议网站:

http://cips-cl.org/static/CCL2026/index.html

论文主题:

CCL 2026征集计算语言学方面的原创研究和应用论文。论文包括但不限于以下内容:

  • 语言研究的本体理论、认知模型和心理加工机制

  • 语言资源和评测

  • 语义学和词汇本体论

  • 语言结构分析、语用学(含词法、句法、语义等结构)

  • 信息检索、信息抽取与知识图谱

  • 机器翻译和多语言/资源缺乏语言信息处理

  • 问答系统、人机对话系统

  • 社会计算、社交媒体计算、情感计算

  • 语音与多模态信息处理

  • 大语言模型与智能体

  • 大语言模型安全、价值观与对齐

  • 自然语言处理应用

时间表:

投稿系统开放:2026 年 5 月 10 日

论文投稿截止日期:2026 年 6 月 6 日

录用通知发出日期:2026 年 7 月 31 日

论文终版提交日期:2026 年 8 月 16 日

会议日期:2026 年 10 月 15-18 日

论文投稿:

CCL 2026 接受中文与英文投稿。所有录用论文将在会议上以口头报告或海报形式进行交流。其中,录用的英文论文将全部发表在中科院二区期刊 Data Intelligence(作者需负担Open Access费用);中文论文将推荐至《中文信息学报》(入选中国计算机学会《计算领域高质量科技期刊分级目录》T1 类)等中国科技核心期刊(依据中国科学技术信息研究所目录),经期刊审稿通过后正式发表。

论文格式要求:

会议投稿系统由 Data Intelligence 期刊提供技术支持。请使用会议指定的 LaTeX 模板,并以 PDF 格式提交。正文篇幅不超过 10 页,包含参考文献页数不超过15页。本次会议实行双盲评审,投稿论文中不得出现作者姓名、单位及其他可识别信息,作者自引需采用第三方形式(如"作者 XX 提出…")。未满足格式和匿名要求的论文将不经完整审稿程序而直接拒稿。

论文模板下载:

所有稿件须通过 Data Intelligence 投稿系统以 PDF 格式提交,系统链接即将公布。

关于平行投稿政策:

本次会议允许作者将同一稿件同步投稿至其他自然语言处理领域的国际顶级会议,前提是该会议亦允许平行投稿。投稿时,作者须明确标注该稿件同时投往的相关会议。收到录用通知后,作者须在最终版本提交截止日期前告知程序委员会是否在本会议发表。一旦确认发表,必须撤回其他会议中的同一稿件。本会议不接受任何已公开发表或与之高度重合的稿件。

关于出版费用:

Data Intelligence 期刊出版费用(英文论文):

Data Intelligence期刊为Open Access期刊,所有被接受和拟发表论文均收取一次性版面费(Article Processing Charge, APC)。版面费根据论文的最终排版长度(即印刷版或最终在线 PDF 版的页码)进行计算。论文长度包括标题、作者信息、摘要、正文、图表、参考文献及附录等所有组成部分。

类别页数版面费 (APC)     
基础收费10 页及以内(含10页)人民币 8,000 元
超页收费超过10页(11-15页,含15页)人民币 10,000 元

中文期刊出版费用:

根据各推荐中文期刊具体要求执行。

相关链接:

任务征集 | CCL26-Eval中国计算语言学大会评测研讨会

第二十五届中国计算语言学大会(CCL 2026)征稿启事

第二十五届中国计算语言学大会(CCL26-Eval)技术评测任务发布

中国计算语言学大会(CCL26-Eval)技术评测任务启动,欢迎报名参赛!

CCL 2026|第二十五届中国计算语言学大会诚邀赞助单位

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

会议预告 | 周志华《关于人工智能伦理的讨论》

2026年5月22日 00:00

徐惠 2026-05-22 00:00 江苏

2026年5月23日,周志华教授将主讲《关于人工智能伦理的讨论》,探讨 AI 伦理议题。

报告预告

人工智能伦理跨学科融合发展大会暨江苏省人工智能学会伦理审查委员会成立一周年活动即将启幕。中国科学院院士、南京大学副校长周志华教授将带来主旨报告《关于人工智能伦理的讨论》,共探 AI 伦理新路径。

报告安排

  • 时间:2026年5月23日(周六)9:10-9:50

  • 地点:金陵科技学院科技楼1号报告厅

  • 会议直播:(微信扫描图上二维码即可预约参与)

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

大模型前沿技术报告11 | 面向协作式AI智能体:连接强化学习与大语言模型

2026年5月21日 00:00

徐惠 2026-05-21 00:00 江苏

大模型前沿直播课开讲,聚焦协作式AI智能体,融合强化学习与大语言模型。

转载自“CIPS计算语言学专委会”

大模型前沿技术报告系列直播课是由中国中文信息学会计算语言学专业委员会主办并行科技与北京超级云计算中心共同承办系列公益直播课,旨在分享大模型技术前沿学术成果和普及大模型算力应用,面向相关领域的科研工作者和高校师生展开。

大模型前沿技术报告系列直播课每月一场,每期邀请一位大模型领域的知名专家学者,进行约一至二小时的学术报告分享。直播课播出平台为:视频号【并行科技】视频号【北京超级云计算中心】B站【并行科技】,欢迎观看与交流。

特邀主持人

杨耀东,北京大学人工智能研究院助理教授、研究员(博雅学者),北大-灵初智能联合实验室首席科学家。国家人社部高层次留学人才、国家级优秀青年人才、中国科协青年托举计划入选者。主要研究方向为智能体交互学习与对齐,科研领域涵盖强化学习、AI 对齐与具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等国际顶级期刊和会议发表论文二百余篇,谷歌学术引用逾 16,000+ 次。自 2022 年以来位列 CSRanking 北大 AI/ML 方向学者首位,入选 Scopus 全球 Top 2% 顶尖科学家。

特邀报告

杜雅丽博士,伦敦国王学院的AI副教授,在该校领导分布式AI研究组并负责协作式AI实验室,同时担任阿兰图灵研究所的图灵研究员,是欧洲学习与智能系统实验室(ELLIS)的成员。她的研究致力于开发能够在复杂决策环境中学习、协作并适应人类的协作式与安全AI智能体,重点关注可扩展的多智能体学习、人机协调和价值对齐问题。她曾获得AAAI新晋教师亮点奖,并在2023年被沙特阿卜杜拉国王科技大学(KAUST)评为AI新星。杜博士现任AAMAS高级领域主席,NeurIPS、ICML、ICLR和IJCAI的领域主席,IEEE人工智能汇刊副编辑,以及《自主智能体与多智能体系统杂志》和《机器人与计算机集成制造》的客座编辑。她还曾担任AAMAS 2023、NeurIPS 2024、DAI 2025和AAMAS 2027的组织委员会成员。

报告主题:

面向协作式AI智能体:连接强化学习与大语言模型

报告摘要:

从协作式工业机器人到个人AI助手,AI技术在日常生活中的深度融合突显了开发能够与其他智能体及人类可靠协作的智能体的迫切需求。这一挑战超越了优化个体行为的范畴:协作式智能体必须与人类意图保持一致,适应不断变化的环境,并在与新引入的AI系统等新型合作伙伴交互时保持鲁棒性。更广泛地说,多智能体协作引发了关于自主系统应如何沟通、协商、共享资源和解决冲突的重要社会问题。在本次报告中,我将探讨协作式AI面临的挑战,以及我们在多智能体协作、人机协调和协作对齐方面的贡献。

报告提纲:

1、介绍AI agents 在机器人、个人助手和社会技术系统中的应用背景,以及 agent-agent 和 human-agent coordination 的核心挑战

2、如何利用人类反馈来提高智能体决策能力

3、如何结合 RL 的决策学习能力与 LLM 的语言推理能力,构建适应性更强的 AI agents

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

❌