阅读视图

大模型前沿技术报告11 | 面向协作式AI智能体:连接强化学习与大语言模型

徐惠 2026-05-21 00:00 江苏

大模型前沿直播课开讲,聚焦协作式AI智能体,融合强化学习与大语言模型。

转载自“CIPS计算语言学专委会”

大模型前沿技术报告系列直播课是由中国中文信息学会计算语言学专业委员会主办并行科技与北京超级云计算中心共同承办系列公益直播课,旨在分享大模型技术前沿学术成果和普及大模型算力应用,面向相关领域的科研工作者和高校师生展开。

大模型前沿技术报告系列直播课每月一场,每期邀请一位大模型领域的知名专家学者,进行约一至二小时的学术报告分享。直播课播出平台为:视频号【并行科技】视频号【北京超级云计算中心】B站【并行科技】,欢迎观看与交流。

特邀主持人

杨耀东,北京大学人工智能研究院助理教授、研究员(博雅学者),北大-灵初智能联合实验室首席科学家。国家人社部高层次留学人才、国家级优秀青年人才、中国科协青年托举计划入选者。主要研究方向为智能体交互学习与对齐,科研领域涵盖强化学习、AI 对齐与具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等国际顶级期刊和会议发表论文二百余篇,谷歌学术引用逾 16,000+ 次。自 2022 年以来位列 CSRanking 北大 AI/ML 方向学者首位,入选 Scopus 全球 Top 2% 顶尖科学家。

特邀报告

杜雅丽博士,伦敦国王学院的AI副教授,在该校领导分布式AI研究组并负责协作式AI实验室,同时担任阿兰图灵研究所的图灵研究员,是欧洲学习与智能系统实验室(ELLIS)的成员。她的研究致力于开发能够在复杂决策环境中学习、协作并适应人类的协作式与安全AI智能体,重点关注可扩展的多智能体学习、人机协调和价值对齐问题。她曾获得AAAI新晋教师亮点奖,并在2023年被沙特阿卜杜拉国王科技大学(KAUST)评为AI新星。杜博士现任AAMAS高级领域主席,NeurIPS、ICML、ICLR和IJCAI的领域主席,IEEE人工智能汇刊副编辑,以及《自主智能体与多智能体系统杂志》和《机器人与计算机集成制造》的客座编辑。她还曾担任AAMAS 2023、NeurIPS 2024、DAI 2025和AAMAS 2027的组织委员会成员。

报告主题:

面向协作式AI智能体:连接强化学习与大语言模型

报告摘要:

从协作式工业机器人到个人AI助手,AI技术在日常生活中的深度融合突显了开发能够与其他智能体及人类可靠协作的智能体的迫切需求。这一挑战超越了优化个体行为的范畴:协作式智能体必须与人类意图保持一致,适应不断变化的环境,并在与新引入的AI系统等新型合作伙伴交互时保持鲁棒性。更广泛地说,多智能体协作引发了关于自主系统应如何沟通、协商、共享资源和解决冲突的重要社会问题。在本次报告中,我将探讨协作式AI面临的挑战,以及我们在多智能体协作、人机协调和协作对齐方面的贡献。

报告提纲:

1、介绍AI agents 在机器人、个人助手和社会技术系统中的应用背景,以及 agent-agent 和 human-agent coordination 的核心挑战

2、如何利用人类反馈来提高智能体决策能力

3、如何结合 RL 的决策学习能力与 LLM 的语言推理能力,构建适应性更强的 AI agents

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

观点 | 科研的未来 —— 论文还能存在多久?

墨言 熊步平 豆包 2026-05-20 00:00 江苏

论文从何而来?论文终将淘汰吗?

论文终将淘汰:百年学术体系,正在被 AI 和数据颠覆

凌晨三点,实验室的灯还亮着。

你不是在调试仪器,也不是在分析数据,而是在改第 17 版论文。为了挤进那本影响因子 10 分的期刊,你删掉了三分之二的原始数据,隐藏了所有失败的实验尝试,把一个充满曲折和意外的真实研究,硬生生裁剪成了一个逻辑完美、结果漂亮的 "学术故事"。

这是全球数千万科研人每天都在经历的日常。

作为现代科学成果的核心载体,论文已经走过了近 360 年的历史。它曾是推动人类科学进步的伟大发明,但在数字时代和人工智能时代,这套传承百年的固定体系,正在变成束缚科学发展的沉重枷锁。

📜 从书信到论文:印刷时代的伟大发明

现代科学论文的诞生,源于一场 "优先权之争"。

17 世纪的科学革命时期,科学家们主要通过私人书信交流研究成果。这种方式不仅传播范围有限,还经常引发谁先做出发现的争议 —— 牛顿和莱布尼茨关于微积分发明权的世纪之争,就是最著名的例子。

为了解决这个问题,英国皇家学会在 1665 年创办了世界上第一份科学期刊《哲学汇刊》。它的核心使命很简单:公开记录科学发现,确立优先权

早期的论文没有任何固定格式。牛顿关于光的色散的论文、富兰克林关于闪电的风筝实验报告,本质上都是写给同行的详细书信。篇幅可长可短,内容可深可浅,既可以描述完整的实验过程,也可以记录一个偶然的观察发现。

论文真正变成我们今天熟悉的样子,是在 19 世纪末 20 世纪初。随着科学研究从个人兴趣变成专业化职业,学术界逐渐形成了统一的 "IMRaD" 结构(引言、方法、结果、讨论)。

这种标准化是科学方法论的巨大进步。它让不同国家、不同领域的科学家能用同一种 "语言" 对话,极大地提高了学术交流的效率。20 世纪中叶,同行评审制度正式确立,论文从此不仅是学术交流的工具,更成为了科研成果评价的唯一标准。

在印刷时代,论文体系完美地完成了它的历史使命。它建立了人类历史上第一套系统的知识记录和传播体系,构建了可追溯的科学谱系,推动了全球学术共同体的形成。

⛓️ 当论文成为科研的枷锁

然而,进入 21 世纪,信息技术的爆炸式发展彻底改变了科研的范式。论文这套为印刷机设计的制度,越来越难以适应数字时代的需求。

首先,论文的静态线性结构,正在制造全球性的 "可重复性危机"。

一篇传统论文就像一座冰山。我们看到的只是水面上那几个精心挑选的图表,而水面之下是 TB 甚至 PB 级的原始数据、无数次失败的实验尝试、被舍弃的中间结果,以及所有无法用文字描述的实验细节。

据《自然》杂志 2018 年的一项震撼调查:超过 70% 的研究者曾无法重复他人的实验结果,超过一半的研究者甚至无法重复自己的实验结果。

无数科学家在重复着前人已经做过的失败实验,造成了难以估量的科研资源浪费。而这一切,仅仅是因为论文不允许发表 "负面结果"。

其次,传统出版的滞后性,正在拖慢科学进步的速度。

一项前沿研究从投稿到正式发表,平均需要 6-12 个月,在某些领域甚至长达数年。在人工智能这样日新月异的领域,当一篇论文正式见刊时,其中的技术可能已经被淘汰了好几轮。

预印本平台的兴起虽然缓解了这一问题,但它本质上只是把传统论文提前发布而已,并没有改变论文本身的形态。

最致命的是,论文体系已经彻底扭曲了科研的初衷。

"不发表即灭亡"(publish or perish)的文化,把科学变成了一场 "发表游戏"。为了在高影响因子期刊上发表论文,研究者们纷纷选择 "安全" 的、容易出阳性结果的课题,回避那些高风险、高回报的探索性研究。

更有甚者,为了追求 "漂亮" 的结果而篡改数据、选择性发表。学术不端行为的频发,本质上是这套畸形评价体系的必然产物。

🚀 未来已来:这些新形态正在取代论文

论文体系的危机早已被学术界察觉。近年来,开放科学运动在全球蓬勃发展,各种新型学术交流形态不断涌现,正在逐步瓦解传统论文的垄断地位。

开放数据与开放方法正在成为学术成果的标配。

越来越多的资助机构和期刊开始要求,研究者在发表论文的同时必须公开所有原始数据、实验代码和详细的实验方案。GitHub、Zenodo、Figshare 等平台已经成为科研数据和代码分享的主要场所。

未来,"可重复" 将成为学术成果的基本门槛。一项不能被独立重复的研究,将不再被学术界认可。

交互式论文正在重新定义学术出版。

与传统的静态 PDF 不同,交互式论文允许读者直接操作文中的数据、运行代码、调整参数、重新生成图表。例如,专注于机器学习的 Distill 期刊,读者可以在浏览器中实时调整神经网络的参数,直观地看到模型性能的变化。

这种形式让学术交流从单向的 "告知" 变成了双向的 "互动",极大地提高了研究的透明度和可理解性。

模块化科研成果将取代单一的论文形式。

未来,一项研究不再被打包成一篇完整的论文,而是分解为多个独立的、可引用的模块:数据集、代码、实验方案、预印本、同行评审意见、后续修正等。

每个模块都有自己的 DOI 和引用计数,研究者可以根据自己的具体贡献获得相应的学术认可。这不仅大大加快了成果传播速度,也让评价体系更加公平合理。

🤖 AI:压垮论文体系的最后一根稻草

如果说开放科学只是在改良论文体系,那么人工智能的出现,将彻底终结论文的历史使命。

AI 将成为学术研究的 "智能中介"。

未来,研究者不再需要花费大量时间阅读海量论文来了解领域进展。AI 可以自动追踪全球的科研动态,对最新成果进行总结、提炼和整合,为研究者提供个性化的知识服务。

更重要的是,AI 可以发现不同研究之间隐藏的联系,提出新的研究假设,甚至设计实验方案。这将彻底改变人类进行科学研究的方式。

AI 将重构整个学术评价体系。

基于期刊影响因子和引用次数的传统评价方式将被淘汰。未来,AI 可以对科研成果进行多维度、全方位的评价:不仅评价最终的论文,还评价研究过程中的每一个贡献;不仅评价研究的影响力,还评价研究的创新性、严谨性和社会价值。

AI 还可以自动检测学术不端行为,大大提高学术评价的公正性和效率。

最终,AI 将创造全新的学术交流语言。

传统论文是为人类阅读设计的,而在 AI 时代,大量科研数据和成果将首先由 AI 处理和分析。未来可能会出现一种 "人机通用" 的学术交流语言,它比自然语言更加精确、更加结构化,能够更好地承载复杂的科学知识。

结语

论文终将淘汰,但这绝不意味着学术交流的终结。

恰恰相反,这意味着学术交流将进入一个更加开放、更加高效、更加公平的新时代。论文是印刷时代的产物,它已经出色地完成了自己的历史使命。在数字时代和人工智能时代,我们需要建立一套全新的学术交流体系。

这一转变不会一蹴而就。传统论文体系在学术界已经根深蒂固,改变它需要学术共同体、资助机构、出版机构和政府部门的共同努力。

但历史的车轮滚滚向前。我们正在见证一个时代的结束,也正在迎接一个科学繁荣新纪元的到来。


互动话题:你觉得论文会在多少年内被彻底取代?你最想吐槽论文体系的哪一点?欢迎在评论区留言分享你的看法!

阅读原文

跳转微信打开

  •  

CCL 2026|第二十五届中国计算语言学大会诚邀赞助单位

CCL 2026 2026-05-19 00:00 江苏

CCL 2026将于10月在宜昌举办,诚邀企业赞助,助力产学研交流。

转载自“CIPS计算语言学专委会”

CCL 2026|第二十五届中国计算语言学大会诚邀赞助单位

01  会议简介

第二十五届中国计算语言学大会(The 25th China National Conference on Computational Linguistics,CCL 2026) 将于2026年10月15日至18日在湖北省宜昌市举行。会议主办单位为中国中文信息学会,承办单位为武汉大学、三峡大学,会议网站:http://cips-cl.org/static/CCL2026/index.html 。中国计算语言学会议(CCL)从1991年开始每两年举办一次,从2013年开始每年举办一次。

       作为国内最大的自然语言处理专家学者的社团组织——中国中文信息学会(CIPS)的旗舰会议,在国内具有最广泛的学术影响。会议汇集了国内众多自然语言处理领域的专家、学者、学生及从业人员。会议包括特邀报告、前沿技术讲习班、学术论文报告、技术评测、前沿动态综述、学生研讨会、海报及演示系统展示等主要环节。

       CCL 2026将为自然语言处理领域的学术界和产业界提供前沿的技术发展动态、丰富多样的交流活动、全面前瞻的产业技术宣传平台,为学术界与产业界搭建起一座前沿技术共享的桥梁,促进学术思想的深度碰撞、产业资源的互动合作,推动产学研联动发展,提升我国自然语言处理技术的研究与应用水平。

       为成功举办大会和促进产学研紧密交流,CCL 2026现征集、遴选国内外优秀企业作为会议赞助单位。我们为企业设计了多种形式的赞助方案,同时,也充分尊重并响应企业的个性化需求,提供量身定制的赞助服务。CCL 2026满怀热忱,期待与更多行业领军企业携手并进,共同探索自然语言处理技术的无限可能,携手推动自然语言处理领域的科学研究与产业进步迈向新的高度。

02 赞助级别和权益

首席赞助商:10(万元)

钻石赞助商:8(万元

白金赞助商:6(万元)

金牌赞助商:4(万元)

银牌赞助商:2(万元)

说明:会议将根据赞助金额决定赞助机构的排序。赞助金额相同的机构,根据签订合同的时间排序。

01

赞助商共同权益

1、名誉权益

机构标志展示:在会场背景板、会议网站(链接到其官网)、会议手册标示单位名称和logo图片。

2、推广权益

宣传品投放:将赞助单位宣传品放在统一的资料袋内派发至每一位与会代表。

3、现场权益

(1)主持人鸣谢:会议过程中主持人对企业鸣谢。

(2)赞助单位展位:在会议现场设定展位,向与会代表宣传展示最新技术。

02

首席赞助商

1、推广权益

(1)宣传稿件投放:在会议手册中投放企业宣传材料4页。

(2)宣传视频植入:会议茶歇时间在会场大屏幕播放企业宣传片300秒。

2、现场权益

(1)座次安排优先权:机构领导出席会议期间各种活动,优先安排座次。

(2)赞助单位易拉宝:在会议现场(主会场)摆放易拉宝4个

3、其他权益

(1)免注册名额:为赞助单位提供会议免注册名额8个

(2)免费讲习班名额:为赞助单位提供免费参加讲习班的名额8个。

03

钻石赞助商

1、推广权益

(1)宣传稿件投放:在会议手册中投放企业宣传材料3页。

(2)宣传视频植入:会议茶歇时间在会场大屏幕播放企业宣传片120秒。

2、现场权益

(1)座次安排优先权:机构领导出席会议期间各种活动,优先安排座次。

(2)赞助单位易拉宝:在会议现场(主会场)摆放易拉宝3个。

3、其他权益

(1)免注册名额:为赞助单位提供会议免注册名额6个。

(2)免费讲习班名额:为赞助单位提供免费参加讲习班的名额6个。

04

白金赞助商

过去,或颓废,或激情。时光荏苒,不知不觉中,紧张繁忙的一年即将过去,或颓废,或激情。

1、推广权益

(1)宣传稿件投放:在会议手册中投放企业宣传材料2页。

(2)宣传视频植入:会议茶歇时间在会场大屏幕播放企业宣传片60秒。

2、现场权益

赞助单位易拉宝:在会议现场(主会场)摆放易拉宝2个。

3、其他权益

(1)免注册名额:为赞助单位提供会议免注册名额4个。

(2)免费讲习班名额:为赞助单位提供免费参加讲习班的名额4个。

05

黄金赞助商

1、推广权益

(1)宣传稿件投放:在会议手册中投放企业宣传材料1页。

(2)宣传视频植入:会议茶歇时间在会场大屏幕播放企业宣传片30秒。

2、现场权益

赞助单位易拉宝:在会议现场(主会场)摆放易拉宝1个。

3、其他权益

(1)免注册名额:为赞助单位提供会议免注册名额2个。

(2)免费讲习班名额:为赞助单位提供免费参加讲习班的名额2个。

06

白银赞助商

1、推广权益

宣传稿件投放:在会议手册中投放企业宣传材料1页。

2、现场权益

赞助单位易拉宝:在会议现场(主会场)摆放易拉宝1个。

3、其他权益

免费讲习班名额:为赞助单位提供免费参加讲习班的名额1个

03 赞助手续

请联系中国中文信息学会会议主管肖千慧老师,签订赞助协议并完成拨款。

联系人:肖千慧

电话:(010) 62562916-3

电子邮箱:qianhui@iscas.ac.cn

签订赞助协议后,请联系会议赞助主席并提供以下信息:高分辨率logo图片、企业宣传材料和系统展示硬件和软件需求。

赞助主席联系方式

王昊奋 

同济大学

haofen.wang@tongji.edu.cn

冯骁骋

哈尔滨工业大学

xcfeng@ir.hit.edu.cn

04 大会信息   

主办单位:中国中文信息学会

承办单位:武汉大学、三峡大学

会议网站:http://cips-cl.org/static/CCL2026/index.html

会议时间:2026年10月15日至18日

会议地点:湖北省宜昌市

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

《中国语文》编辑部 | 中国语言学自主知识体系构建的探索与展望——写在习近平总书记“5·17”重要讲话发表十周年之际

徐惠 2026-05-18 00:00 江苏

十年探索推进中国语言学自主知识体系建设,展望高质量发展路径。

转载自“今日语言学”

思想的伟力,总是在历史的纵深中愈显磅礴。

十年前的5月17日,习近平总书记在哲学社会科学工作座谈会上发表重要讲话,对加快构建中国特色哲学社会科学学科体系、学术体系、话语体系作出全面部署,深刻回答了中国哲学社会科学“为谁立言、为谁治学、怎样治学”的根本问题。2022年4月25日,习近平总书记在考察中国人民大学时指出:“加快构建中国特色哲学社会科学,归根结底是建构中国自主的知识体系。”这一重要论断为构建中国特色哲学社会科学进一步指明了前进方向。

语言是思想的直接现实,是文明赓续的重要载体;语言学是哲学社会科学的基础性学科。中国语言学自主知识体系的构建,是增强文化主体性、提升国家语言能力的内在要求,关乎我国在国际学术领域的阐释力与话语权。习近平总书记的重要讲话和重要论断,是中国语言学不断增强学科主体意识、不断加快自主知识体系构建步伐的重要遵循和根本路径。

十年来,在“5·17”重要讲话精神的指引下,广大语言学工作者坚持以马克思主义为指导,立足中国语言实际,着力摆脱对西方语言学理论的简单依赖,在融通中外学术资源中增强理论自觉,在扭转重引介、轻创造倾向的进程中,更加重视提炼原创性、标识性概念,在继承传统语言文字研究学脉的基础上,不断推动语言研究更好服务国家重大战略需求,更好服务人民群众语言文化生活需要,持续彰显语言学研究的学术价值、社会价值和文化价值。

回顾过去,是为了开辟未来。展望未来,如何在新征程上校准方向、凝聚共识,确保中国语言学自主知识体系构建持续深化、行稳致远,这既是时代赋予的重大课题,也是中国语言学自身发展的应有之义。

一、中国语言学自主知识体系构建的探索

知识体系是哲学社会科学各领域知识的系统集成和高度凝练,是哲学社会科学学科体系、学术体系、话语体系的深层根基与核心支撑。构建中国特色哲学社会科学“三大体系”,要以构建中国自主的知识体系为目标。反过来,学科体系、学术体系与话语体系三者相互促进,内在统一,共同构成自主知识体系的载体与实质内容。三者既各有侧重,又彼此支撑,在长期建设过程中相互促进。正是在这样由分项建设走向整体贯通、由要素积累走向系统生成的过程中,中国自主的知识体系才得以破土萌生、持续发展、日益走向成熟。

应当看到,构建中国自主的知识体系,绝非一朝一夕之功,而是一个在实践中不断积累、在探索中逐步深化的历史过程。十年来,中国语言学界正是沿着这一基本理路,在不断廓清理论认识、矫正学风偏向、夯实学术根基的过程中,稳步推进各方面基础性建设,并在若干重要领域取得了阶段性进展。

(一)以马克思主义为魂,在深化理论自觉中增强学术主体性

坚持以马克思主义为指导,是中国特色哲学社会科学的根本要求,也是建构中国语言学自主知识体系的根本前提。其中的关键,在于把马克思主义的立场、观点、方法贯穿于学科建设全过程。十年来,中国语言学界对这一要求的认识不断深化,理论自觉和学术自觉不断增强。

一是遵循马克思主义唯物辩证法,重塑具有主体性的学科建设格局。

回顾近现代中国语言学的发展历程,必须坚持历史唯物主义立场,实事求是地看待“西学东渐”的深刻影响。自1898年《马氏文通》问世以来,从历史比较语言学的传入,到结构主义、形式语法、认知语言学等理论方法的相继引介,西方语言学为中国语言研究提供了重要的理论借鉴和分析工具。这些理论和方法的引进,开拓了中国语言学的研究视野,推动语言研究逐步突破传统语文学偏重经验描述和文献考据的局限,对现代学术规范的建立和学科体系的形成起到了积极作用。

同时,也应清醒认识到,长期以来较多依赖外来理论输入和现成框架移植,在一定程度上使中国语言学形成了以西方主流范式为主要参照的研究格局。这种状况带来的一个后果是,学界从中国语言实际出发提炼原创概念、形成自主范畴和建构本土理论的原创动力受到限制;学术体系的自主生长空间也受到挤压。

进入新时代,特别是随着对“5·17”重要讲话精神学习贯彻的不断深入,中国语言学界对这一问题的认识日益清晰。越来越多的学者意识到,坚持马克思主义唯物辩证法,关键是把研究建立在中国语言事实和语言生活的基础之上,坚持从实际出发、从问题出发,在借鉴吸收国外有益成果的同时,防止简单套用外来理论、以单一框架裁剪复杂多样的本土材料。正是在这种认识的推动下,中国语言学界着力优化学科布局,学科体系正在发生积极而稳健的调整。

在基础学科领域,各分支学科固化的壁垒正渐次消解,学科内在的整体关联性日益显现,这种变化折射出学界对构建一个更加融汇贯通、更具系统性的学科新格局的积极努力。现代汉语研究不再局限于内部观察,而是更加重视将汉语放在人类语言的大背景下加以比较考察,由此更准确地认识汉语自身的特点。汉语方言调查研究持续深化,汉语史研究也在努力突破过去较为分散的断代研究格局,逐步向贯通古今、着眼长时段演变的方向推进。对我国少数民族语言的调查、描写和研究也取得了较为扎实的进展,进一步拓宽了中国语言学的基础研究。正是在这种纵横贯通的研究视野下,基础研究的整体格局正在发生积极变化。

结合学科由分化走向整合、由并行走向贯通的演进,汉语史、方言学与少数民族语言研究呈现出由单纯描写走向深入解释的共同趋势。汉语史研究进一步更新研究范式,一方面将传统考据、训诂与现代语言学理论相融,结合语法化、词汇化、语言接触等思路,对词汇与语法演变作出更具解释力的分析;另一方面,在材料运用上通过传世文献与简帛、敦煌吐鲁番文书等出土材料的贯通参证,得以更准确地把握历史语言面貌,并为国家语言文化战略提供学理支撑。方言研究持续深化调查,并综合运用社会语言学调查、声学实验分析等方法,使得方言的记录和研究持续走向动态化、立体化与精细化。少数民族语言研究在“中国语言资源保护工程”等重大项目的带动下不断拓展,既着重深化描写、比较与解释,也通过抢救性调查、记录建档与多模态语料库建设,为语言活力评估与语言政策制定等工作奠定材料基础。

在应用研究领域,语言政策与语言规划研究正在逐步改变过去相对边缘的发展状态,朝着更具现实针对性的交叉学科方向稳步推进。围绕国家发展和安全的现实需要,宏观语言规划、计算语言规划、应急语言服务等新的研究方向不断展开。这种变化,既是对时代发展和国家治理重大问题的积极回应,也为提炼服务国家战略的学术命题、形成同我国发展要求相适应的语言学话语提供了重要依托。本土理论话语正是在回应现实问题、服务国家治理的过程中,逐步增强了解释力和生命力。

在前沿交叉领域,语言学与认知科学、人工智能、神经生物学、临床医学等学科的联系日益紧密,研究边界不断拓展。一方面,借助与脑科学、心理学等领域的结合,学界围绕语言习得、语言加工等问题展开了更为深入的研究,从语言学角度为认识人类认知等方面提供支持;另一方面,面对新一轮科技发展带来的挑战,计算语言学、语料库语言学等领域也在持续推进,为中文信息处理、人机交互、数字人文以及大模型相关研究提供必要的数据基础和方法支撑。这种跨学科互动为突破单一研究路径的局限、丰富中国语言学自主知识体系的方法和工具,创造了新的条件。

二是以“两个结合”为方法论,在历史扬弃中着力培育原创学术成果。

把马克思主义基本原理同中国具体实际相结合、同中华优秀传统文化相结合,是中国共产党领导的各项事业不断取得成功的最大法宝。十年来,中国语言学界自觉践行这一方法论,不断增强理论自觉,推动研究向前发展。

一方面,在坚持以马克思主义为指导,并不断推进马克思主义与中国语言实际相结合的过程中,学界越来越清楚地认识到,不能把丰富的本土语言材料仅仅作为验证外来理论的例证,而必须立足中国语言事实本身,以马克思主义的基本原则为基础,提出能够揭示中国语言内在规律的理论问题。这一逐渐凝聚的共识,正切实推动中国语言学从现象描写稳步迈向对深层规律的挖掘。总体来看,研究者能够更加自觉地立足汉语和少数民族语言事实,着力提炼具有普遍解释力的原创概念。

另一方面,在坚持马克思主义基本原理同中华优秀传统文化相结合的过程中,学界更加重视对传统“小学”资源的创造性转化和创新性发展。中国传统语文学长期以来积淀了深厚的考据功力和丰富的方法经验,其中不少成果至今仍具有重要的启发意义。近年来,研究者在整理出土文献、考释传世典籍的过程中,自觉将训诂、音韵、文字之学的方法同现代语言学的理论视野和研究规范结合起来,努力实现古今贯通、中西会通。这样一种结合,是在继承扬弃的基础上,激活传统学术资源的现代价值,并由此形成了一批兼具历史根基和现代理论意识的研究成果。此外,学界也以更强的文化自信,自觉运用中华文化的传统概念来表述语言学有关问题。

三是在马克思主义指导下,稳步推进学术话语的自主建构。

基本概念和重要范畴在理论建构中具有基础作用。进入新时代以来,中国语言学界在提炼原创概念、形成本土学术话语方面作了持续探索,取得了积极进展。

在一些细分领域中,一批立足汉语事实、体现本土问题意识的概念和范畴逐步提出并不断深化。语音学研究围绕“发声态”“音位负载量”“词调”“语音格局”等概念所作的系统探讨,在一定程度上增强了对汉语语音、音系特质的解释能力。句法语义研究中,立足中国传统哲学的理论探索有所推进,“大语法”等视角引发了学界较为广泛的讨论,推动了对汉语结构特点和表达方式的进一步思考。类型学研究方面,本土学者提出“语言库藏类型学”等理论框架,并围绕“显赫范畴”“库藏裂变”“跨范畴对应”“寄生范畴”等概念,从跨语言视角研究形-义关系,尤其关注形式库藏对语义表达的反作用。针对汉语传统上常被概括为“意合”的特点,研究者也在努力综合多种理论资源,探索建立更为严整的“高级版本的意合语法”描写体系。此外,面对复杂的语言现象,学界提出“新描写主义”的主张,强调运用不断更新的理论工具,对微观语言事实进行更加细密的描写。

这些探索虽然仍有待进一步积累和深化,但这一进展表明,中国语言学界已在不少问题上初步形成从中国语言事实出发提炼概念、建构范畴、推进理论表达的自觉。这对于增强学术体系的主体性、提高话语体系的自主性,具有积极意义。

(二)以人民需求为本,在服务国家战略和人民语言生活中践行经世致用

学术的生命力,根本在于能否同国家发展和社会生活保持真实而紧密的联系。近年来,中国语言学界自觉强化以人民为中心的研究导向,努力把学科建设同国家重大战略需求结合起来。特别是贯彻落实国家语言文字工作部署的相关要求,“坚持服务大局、服务人民”,推动语言学研究在广阔社会实践中不断发展。

一是围绕语言能力和语言治理,在服务国家发展战略中拓展自主话语空间。

近年来,学界更加重视从国家语言能力建设、语言文字规范化、标准化与信息化建设,特别是铸牢中华民族共同体意识的高度,深入认识推广普及国家通用语言文字的重要意义。尤其是围绕“国家语言能力”这一具有鲜明时代特征的概念,学界已将研究视野由传统的个人语言能力逐步拓展到国家处理内政外交、社会治理、公共传播等事务所需要的整体性语言能力,由此进一步凸显了语言学服务国家治理和国家竞争力提升的独特价值。在新疆等重点地区,围绕国家通用语言文字普及攻坚和质量提升,形成了较为扎实的实践经验。随着“中国语言资源保护工程”的深入实施,各地汉语方言和少数民族语言的大规模调查、记录、整理和数字化建库持续展开,形成了覆盖多语种、多方言、多场景的国家语言资源基础体系。这一系统工程不仅为语言文化保存保护奠定了坚实基础,而且推动了语言资源调查规范、调查方法、语言资源观与数据库建设的更新,体现出中国语言学由描写研究走向资源建设、由个体积累走向国家工程的显著转变。基于长期调查与持续积累,学界对“语言资源”“语言安全”等问题的认识进一步深化,对“国家语言能力”等概念的阐释也更能体现实践依据,从而更好回应国家发展战略特别是语言治理现代化的现实需求。

二是立足中华优秀语言文化传承发展,在弘扬中华优秀文化中提升学科贡献力。

语言文字是文化的基础要素和鲜明标志。围绕传承弘扬以语言文字为载体的中华优秀文化,中国语言学界在国家语言文化传承发展系列工程推动下,持续推进中华优秀语言文化的科学阐释、教育普及、资源开发、传播互鉴,重点聚焦中华经典诵读工程与经典润乡土计划,推动中华经典诵写讲进校园、进乡土、进公共生活;着力实施古文字与中华文明传承发展工程,深化对甲骨文等古文字所承载的中华文明根脉的研究阐释,推动古文字研究成果转化为更具育人效能的语言文化内容。借助中国语言资源保护工程与中国语言记忆行动,加强语言资源调查整理、科学保护和规范储备,夯实语言文化传承发展的资源基础;重点依托国家数字中文建设工程、中华精品字库工程等,推动语言文化资源数据化、成果数字化和服务智慧化,让传统语言文化活起来、用起来、传得更远。进一步面向国内外交流需要,深入推进中华思想文化术语传播工程,提升国际表达能力与话语传播效能,为构建中国话语和中国叙事体系提供坚实的学理支撑与可转化成果。此外,围绕全球华语、国际中文教育等展开的持续研究,也使语言学在沟通中外、增强中华语言文化认同方面发挥了日益重要的作用。 

三是面向社会发展变化,在语言服务中更好满足人民群众多样化需求。

随着社会文化需求日益多样,语言学研究更加重视面向现实、面向公众。以辞书编纂与融媒体语言服务为代表的实践探索,推动规范使用理念与服务方式不断优化。以《新华字典》《现代汉语词典》等为代表的权威辞书,作为国家语言规范的重要标志性成果,在普及教育、推广国家通用语言文字等方面发挥了基础性作用。面对数字化浪潮,现代辞书学加快从“以辞书为中心”走向“以用户为中心”,积极发展应用程序、在线查询与知识服务平台等新型产品,提升语言服务的可获得性与使用效率;同时,围绕辞书的文化使命与社会功能、规范性与描写性的关系等关键问题形成更强的理论自觉,推动构建具有中国特色的现代辞书学理论体系。

围绕语言生活展开的监测、研判与服务,也逐渐成为近年来的重要着力点。自2004年国家语言资源监测与研究中心成立以来,相关工作由平面媒体逐步扩展到有声媒体、网络媒体、教育教材、少数民族语言及海外华语等方面,并连续发布《中国语言生活状况报告》等成果。这些工作较为系统地呈现了当代中国语言生活的演变状况,也为语言政策制定、社会语言热点研判和公共语言服务优化提供了扎实的数据支持。尤其重要的是,这类持续监测推动中国语言学逐步形成了以“语言生活”为对象、以语料监测和社会调查为依托、以服务决策和公众为旨归的研究路径,较为鲜明地体现了“从语言生活中来,到语言生活中去”的学术取向。

同时,围绕乡村振兴、脱贫攻坚等国家重大战略,语言学工作者持续关注国家通用语言文字推广普及中的实际问题,强调以“能用、会用、用得好”为导向推进语言服务体系建设。特别是在脱贫攻坚中围绕普通话普及、语言能力提升、语言教育支持和多媒体学习资源建设所展开的一系列实践与研究,逐步形成了“语言扶贫”这一具有中国特色的工作理念和学术命题,表明语言能力不仅是文化素养的体现,也同人口流动、信息获取、技术传播和发展机会密切相关。在此基础上,研究者通过田野调查、政策咨询和应用实践,逐步形成具有中国特色的解释框架与研究路径,使应用语言学在回应人民群众关切、提高公共服务语言能力方面展现出更强的支撑力。

应急语言服务也逐步发展起来。特别是在疫情防控、地震救灾等突发事件中,学界围绕方言沟通、外语服务和简明汉语传播等实际需求,迅速推出一批具有较强针对性的成果,显示出语言学在特殊情境下参与社会沟通、风险传达和公共服务的现实能力。国家应急语言服务团的成立,标志着这一领域的工作开始由专项探索迈向常态化、制度化。语言学在其中所承担的,已不仅是翻译或表达层面的辅助任务,更是突发事件中信息触达、沟通协调、语言抚慰和语情研判的重要支撑。

面向人口结构变化与数字社会发展,学界又进一步向人的全生命周期延伸,在语言康复、无障碍沟通、全民数字阅读等领域持续探索,为“语言生活状况监测”“语言服务机制建设”等工作提供必要的数据与方法支撑。

(三)以中华文明为根,在融通古今中彰显继承性与民族性

习近平总书记在“5·17”重要讲话中指出,构建中国特色哲学社会科学,要体现继承性和民族性,善于融通古今中外各种资源,特别是要深入挖掘中华优秀传统文化中蕴含的思想观念和人文精神。这一重要论断,对中国语言学在新时代的发展提出了明确要求。语言文字是中华文明的重要载体,积累着深厚的历史信息和文化内涵。面对建构自主知识体系的任务,语言学界更加重视从中华优秀传统文化中汲取养分,在贯通古今的视野中重新认识传统“小学”的学术价值,努力推动其与现代语言学研究相衔接,使之在新的学术条件下转化为具有解释力的研究资源,为构建体现中国语言特点的语言学理论提供基础支撑。

这种立足传统、面向当代和未来的学术自觉,在学科建设上突出表现为对古文字等“绝学”、冷门学科的持续重视。近年来,围绕甲骨文、金文和战国简帛等出土文献的整理与考释,学界做了大量细致工作,推动古文字学及相关交叉研究不断深化。在古文字材料整理与阐释体系不断完善的基础上,文字学研究在新时代进一步拓展范式边界。一方面,面向认知科学、信息科学等学科前沿,引入眼动、事件相关电位(ERP)等实验手段,探究汉字的认知加工机制,为汉字教学与信息处理提供更为科学的依据;另一方面,在甲骨文、金文等古文字考释研究持续推进过程中,形成支撑古文字与中华文明传承发展工程的关键学理。

在国家重大文化工程和相关学术平台的带动下,一些过去相对冷门的学科方向获得了更有力的资源支持,在语言学版图中的位置也进一步明晰。这些领域既关系到古代语言文字材料的系统整理与考释阐明,也关系到中华文明探源与文化传承等重大课题,因而具有突出的基础意义与长期价值。

在学术体系层面,汉语史和古文字研究的推进促进了传统治学方法与现代语言科学方法的结合。长期以来,考据、训诂、校勘等方法构成了中国语言文字研究的重要基础。进入新时代以来,随着出土文献不断丰富、研究资料持续积累,学界更加注重将传统方法与现代语言学的相关方法结合起来,努力提高研究的系统性和论证的严密性。依托传世文献与出土文献的相互参证,进一步深化了汉语演变和汉字发展的相关讨论,有关理论概括也更具条理。

在此基础上,中国语言学界也在稳步推进相关领域的话语建设。近年来,随着古文字研究、少数民族语言文字研究和汉语史研究不断深入,学界开始更加自觉地把汉字和少数民族文字放在人类文字发展的整体背景下加以考察,注意从中国材料出发讨论文字性质、演变机制及其文化功能。这有助于在国际学术讨论中更准确地说明汉字和少数民族文字体系的特点,有助于纠正以单一拼音文字经验解释不同文字类型的简单化倾向,也有助于更加全面准确地彰显汉字及深受汉字影响的若干少数民族文字的独特属性,以及汉字对东亚乃至世界文明的深远影响,从而在国际学术讨论中形成更具说服力的理论表达。但要进一步形成更有影响力、更有解释力的学术话语,仍需在材料积累、概念提炼和比较研究方面继续下功夫。

(四)以科技创新为翼,在交叉融合中淬炼原创性与时代性

在“5·17”重要讲话中,习近平总书记指出,构建中国特色哲学社会科学,要体现原创性和时代性,要求广大理论工作者聆听时代的声音、回应时代的呼唤,坚持以我国实际为研究起点,提出具有主体性、原创性的理论观点。这一重要论断,为中国语言学在新时代推进理论创新和学科转型提供了根本遵循。当前,以人工智能、大数据为代表的新一轮科技的发展,正在深刻影响知识生产方式,也对语言研究提出了新的要求。据此,广大语言文字工作者应进一步增强时代意识和问题意识,努力突破单一学科视野的局限,在吸收现代科技成果的过程中拓展研究领域、改进研究方法,力求在新的实践条件下形成更加切合中国实际的认识。

在这种背景下,中国语言学界顺应科技发展和学科演进的客观趋势,稳步推进现代学科体系建设。近年来,随着一些高校和科研院所陆续设立或扩建语言学相关实验平台,实验语音学、计算语言学、认知神经科学等前沿方向逐步进入高等教育和科研布局之中。这些发展拓宽了传统语言学的研究边界,也为培养兼具语言学基础和技术能力的复合型人才创造了条件。应当看到,目前在方法融通、平台整合和高层次人才储备等方面,仍有不少薄弱环节需要加强,但总体上看,中国语言学面向现代科技发展的学科支撑正在逐步形成。

跨学科基础的扩展,正推动语言学研究范式发生积极变化,并进一步带动学术体系的调整与深化。以语音学领域为例,学科建设逐步形成与国际先进水平接轨的现代实验语音学体系:高水平实验平台持续布局,科研攻关以语料库建设为支撑,其中大规模、多模态语料库的建成起到了重要作用;同时,借助“国家语言资源监测与研究”等项目,推动言语感知与认知、语音病理、人机对话等方向取得积极进展,并为普通话推广与测试、国际中文教育、临床语音治疗与公共安全等国家需求提供支持。基于上述进展,言语认知、语音障碍与语言计算等领域的研究获得了更为扎实的材料基础,也为从中国语言事实出发深入讨论相关理论问题提供了新的条件。

在学科体系和学术体系稳步推进的基础上,中国语言学界也在努力把跨学科探索的阶段性成果转化为适应时代需要的话语表达。面对国际计算语言学和人工智能技术的发展,学界更加自觉地反思对西方模型的简单套用,注意从汉语的语音、词汇、语义和结构特点出发,参与自然语言处理、人机交互和大语言模型评测等领域的研究,探索更符合本土语言实际的分析标准和技术路径。这说明,中国语言学对科技发展的回应,正在由借鉴学习逐步转向结合实际、形成自身特点。随着研究积累的增加,中国语言学在智能时代的话语能力和应用潜力将得到切实的拓展。

(五)以体系建构为基,在协同演进中提升系统性与专业性

习近平总书记在“5·17”重要讲话中指出,构建中国特色哲学社会科学要体现系统性与专业性,要加快推进学科体系、学术体系、话语体系建设和创新,形成全方位、全领域、全要素的哲学社会科学格局。这一重要论断,为新时代中国语言学的整体推进指明了方向。语言文字贯通历史与现实,连接社会、文化与认知。正因如此,语言学研究既不能停留于分散推进,也不能满足于粗疏概括,而应当以系统思维统筹学科布局、研究资源与知识结构,同时坚持严格的学术标准与方法规范,持续提升研究的深度与质量,为自主知识体系建设提供更稳固的支撑。

这种要求首先体现在学科体系的调整与重构上。长期以来,中国语言学虽已形成较为丰富的分支门类,但不同领域之间存在壁垒,传统研究与新兴方向、基础研究与应用研究之间的衔接还不够紧密。进入新时代以来,学界逐步加强文字学、汉语史、方言学、训诂学、辞书学等传统领域与心理语言学、神经语言学、临床语言学、计算语言学等前沿方向的联动,推动学科由分支并列走向结构协同。新兴交叉领域的持续拓展,也促使研究边界不断拓宽、训练要求和学术规范不断细化,推动学科建设向更高程度的专业化迈进。

在学术体系层面,系统性与专业性的统一主要表现为研究范式和方法的持续整合。中国语言学历来重视从语言事实出发,在田野调查、文献考释、比较分析等方面基础深厚。新时代以来,随着语言资源调查、语料库建设和数字化平台不断推进,语言材料的采集、存储、检索和比较能力明显增强。实验语音学、认知科学、脑科学和自然语言处理等方法逐步进入语言研究,语料统计、实验验证与传统实证方法之间开始形成更紧密的互补关系。这表明,语言学研究正在由相对分散的经验积累,转向更注重平台支撑、数据规范和交叉验证的知识生产方式。

在此基础上,话语体系建设也获得了更为扎实的支撑。话语体系是学科成熟程度和理论自觉程度的集中体现。过去一个时期,中国语言学在不少领域更多借助外来概念和框架展开论述,在自主概念、命题和表述的提炼上存在不足。近年来,随着本土研究的深入和跨学科支撑的增强,学界更加重视从中国语言实际、中国语言生活和中华语言文化传统中提炼核心范畴,推动研究成果由个案分析走向体系表达,由内部讨论逐步走向对外阐释。

总的来看,党的十八大以来特别是“5·17”重要讲话发表以来,中国语言学围绕自主知识体系建设进行了持续探索,在立足中国语言实际、传承中华传统语言文字资源、吸收借鉴国际有益成果的基础上,推动学科体系、学术体系、话语体系建设不断取得新进展。从问题意识的逐步增强,到研究范式的持续调整;从传统优势学科的深化拓展,到新兴交叉领域的持续探索;从服务国家战略、人民语言生活和语言文字事业发展的实践探索,到标识性概念、原创性观点和系统化表达的不断积累,中国语言学自主知识体系建设已经奠定了初步基础。当然,这项系统工程仍处在持续深化过程中,在重大原创理论凝练、跨学科协同机制完善、资源平台共建共享、国际传播效能提升等方面仍有不少工作要做。因此,在回顾十年探索与阶段性进展之后,有必要进一步面向未来,立足新的现实条件和实践要求,深入思考中国语言学自主知识体系建设的前进方向、重点任务与实现路径。

二、在新的起点上推进中国语言学高质量发展

站在“5·17”重要讲话发表十周年这一新的起点上,中国语言学要更好推进自主知识体系建设,要求我们既立足中国实际、坚定学术自信,又保持开阔视野、积极融入世界学术交流;既坚持理论创新,又强化现实关怀,使学科发展更深地嵌入国家战略、社会实践和人民需要;既注重整体谋划,又突出重点突破,推动优势领域率先形成标志性成果;既着眼当下,又面向长远,把人才培养作为夯实学科根基、积蓄发展后劲的基础工程。在此基础上,中国语言学当能不断增强理论解释力、学术影响力和国际竞争力,在传承中华文明、服务中国式现代化和参与全球知识生产的进程中,展现出更加鲜明的时代品格和更为坚实的发展前景。

尤其需要指出的是,中国语言学自主知识体系建设不仅是学术路径问题,也是学术观问题。从更深层次说,学术观是政绩观的重要组成部分,是政绩观在学术领域的具体体现。对于语言学研究而言,正确的学术观,要回答的是什么样的学术成果称得上真正的成绩,什么样的学术创造经得起实践和历史的检验,又应当以什么标准评价其价值和意义。要把高质量发展要求贯彻到学术研究之中,倡导功成不必在我、功成必定有我的学术胸襟,鼓励做打基础、利长远的工作,反对急功近利、低水平重复和形式主义倾向,推动学术评价导向由重数量、重包装、重短期产出,转向重质量、重原创、重贡献、重长远积累。

(一)秉持开放胸襟,在交流互鉴中提升主体性

自主不等于封闭,自信离不开开放。中国语言学自主知识体系建设,不是在世界语言学之外另起炉灶,更不是以“自主”之名走向自我封闭,而是要立足中国语言事实,在同世界语言学的持续对话中形成自己的概念、命题和理论。只有把自主建构建立在开放互鉴之上,把学术主体性锻造于交流、比较和检验之中,中国语言学自主知识体系建设才能避免陷入“自说自话”。

一方面,要坚持“以我为主、为我所用”,继续虚心学习和借鉴国际语言学界一切有益的理论成果和研究方法。国际语言学界在诸多研究领域和方向上积累了丰富的理论资源、分析范式和方法工具,其中凡是有助于深化和拓展中国语言学各研究领域和研究方向者,都应成为我们主动借鉴的资源。关键不在于是否借鉴,而在于如何借鉴。对国外理论,既不能简单排斥、拒之门外,也不能脱离中国语言事实机械照搬,而应坚持从具体实际出发,进行批判吸收,使其转化为分析中国语言现象、概括中国语言经验、建构中国理论体系的有效工具。

另一方面,要更加积极、自信地推动中国语言学的优秀成果走向世界。中国语言学的主体性,不仅体现在能够提出自己的问题、形成自己的概念、建构自己的理论,也体现在能够把这些成果带入更广阔的学术空间,同其他理论体系展开平等而深入的对话。学术的生命力来源于持续的交流、相互的激荡和反复的检验。如果一种理论只能说明“自己的材料”,却不能进入更大范围的比较与讨论,它的学术生命终究是有限的。真正有价值的理论应当能够面对更广泛的现象,回应更普遍的问题。我们不仅要在中国语境中形成理论概括,也要努力用国际学界能够理解和讨论的话语方式,分享发现、提出见解。无论是汉语语法的结构特点、文字系统的历史演变、方言变异与接触交融、民族语言的类型特征与演化机制,还是语言认知、语言技术与语言治理中的中国经验,只要能够从中提出具有普遍意义的问题,形成可供比较的概念,提供经得起验证的分析,中国语言学就完全可以为世界语言学贡献新知。其国际影响,很大程度上取决于能否以中国材料揭示新现象,以中国研究提出新命题,以中国理论拓展人类对语言这一共同对象的认识边界,推动中国语言学从“有材料、有经验”迈向“有概念、有理论、有贡献”。

必须看到,中国学术能否走向世界,并不单纯取决于表述方式本身,更取决于我们是否拥有扎实的研究基础和足以支撑理论创造的事实依据。中国语言学要形成有分量的原创成果,仍然要聚焦于对中国语言文字材料的充分占有和深入研究。

因此,进一步加强对中国语言文字材料的系统调查、全面整理和深入研究,具有基础性、战略性意义。古代汉语、现代汉语及其方言、少数民族语言、文字及其演变,传世文献、出土文献以及现实语言生活中不断生成的新材料,共同构成了中国语言学自主知识体系建构最深厚、最不可替代的事实基础。离开对这些材料的积累、描写、考释、比较和分析,概念的提炼、理论的产生和学术体系的建构,便难免失之空泛。只有对历时与共时、书面语与口语、普通话与方言、汉语与少数民族语言、语言结构与语言使用等多层次语言事实进行充分占有和细致分析,才能真正把握中国语言的运行规律和发展机制,进而从中国经验中提炼出具有解释力、概括力和辨识度的概念。

进一步看,防止“自说自话”的关键,在于建立更加稳定、更高水平的开放机制。要创造更多高质量国际学术交流平台,推动中国学者更深入地参与调查、研究、发表和争鸣,依托汉语和少数民族语言的独特事实,提出有分量的中国命题,形成有说服力的中国解释;要切实提升学术表达能力和国际传播能力,使中国语言学不仅在材料占有和经验积累方面巩固优势,而且在理论建构方面迎头赶上。

(二)服务发展大局,在社会实践中彰显学科价值

学术研究的价值,最终体现为对国家发展、社会进步、文化繁荣和民生改善的切实贡献。对于语言学而言,学科的生命力既体现于理论建构的深度,也体现于回应现实问题、服务时代发展、参与社会实践的广度。语言是国家认同建构、社会治理运行、文化传承发展、知识生产传播和人民日常交往的基础性条件。语言学研究如果长期停留于内部演绎和自我论证,不能同国家战略需求、社会运行机制和人民语言生活建立有机联系,就难免陷入“为研究而研究”的狭小循环,削弱学科的问题意识、现实存在感和社会影响力。因此,未来的中国语言学必须更加自觉地把研究视野投向国家发展提出的新课题、社会治理面临的新要求和人民群众对语言生活的新期待。就语言的应用属性而言,为国家立言、为人民立论、为时代立学,才是语言学研究最有分量的“政绩”。

首先,要主动对接国家重大战略需求,在服务党和国家事业发展中发挥语言学的作用。语言是国家统一的重要纽带、社会治理的重要资源、文化传承的重要载体和国际传播的重要媒介。“语言文字事业具有基础性、全局性、社会性和全民性特点,事关国民素质提高和人的全面发展,事关历史文化传承和经济社会发展,事关国家统一和民族团结,是国家综合实力的重要支撑,在党和国家工作大局中具有重要地位和作用”。无论是教育强国建设中文化知识传授与语言能力培养的问题,还是文化强国建设中中华语言文化资源的整理、阐释和传播问题;无论是乡村振兴进程中方言资源保护利用、基层语言服务优化和乡村语言生态建设问题,还是铸牢中华民族共同体意识进程中国家通用语言文字推广普及与多样语言文化协调发展的问题,都需要语言学提供扎实的学理基础和切实的实践方案。特别是在国家语言能力建设日益重要的今天,语言学不仅要研究语言结构和语言演变,更要在语言规划、语言政策、语言标准、语言治理等方面形成系统认识,为国家语言文字事业高质量发展提供智力支持。此外,国际传播能力建设、国家形象塑造和文明交流互鉴,也迫切要求语言学在中国话语表达、中国叙事建构、跨文化传播和国际可理解性提升等方面作出更大贡献。再从技术发展看,人工智能迅猛兴起所带来的大模型训练、语言资源建设、数据标注规范、语义理解优化、人机交互改进等新课题,也都使语言学获得了更加广阔的实践空间和新的发展机遇。

其次,要真切回应人民群众的现实关切,在服务民生改善和社会进步中体现语言学的人文温度。语言问题看似细微,实则与个体成长、社会公平和公共生活质量密切相关。从儿童语言发展、青少年语言教育,到老年群体、边远地区群体和特殊群体的信息可及性问题;从网络时代表达方式的变迁、语言文明建设,到数字化环境下因语言能力差异而形成的新型“数字鸿沟”;从政务服务、医疗服务、司法服务、教育服务中的话语规范、沟通效率与话语公平,到突发公共事件中的应急语言服务、公共提示语、风险沟通和心理疏导,这些都是人民群众在日常生活中切身感受到的现实问题,不少还是人民群众在语言文化生活领域的“急难愁盼”问题,关系到公共服务质量、社会运行效率和人民基本权益。语言学如果能够从这些具体问题出发,把语言调查、语言分析、语言政策研究同现实需求结合起来,提出更科学的语言教育建议、更合理的语言服务方案和更完善的语言治理思路,就能够使研究成果真正走出书斋、进入社会,转化为增进民生福祉、构建和谐健康语言生活、促进社会稳定发展的现实力量。也只有在持续回应人民需求的过程中,语言学才能不断增强问题意识,获得更为深厚和持久的学术生长基础。

再次,要深化跨学科协同创新,在更广阔的知识网络中提升语言学的解释力和行动力。许多重大理论和现实问题仅靠单一学科难以解释和解决,必须在学科交叉中形成综合性研究框架和实践路径。语言学应主动打破与哲学、文学、历史学、社会学、政治学、法学、传播学、心理学、信息科学等学科之间的壁垒,在共同问题意识的引导下开展更深层次的协作研究。一方面,通过与相关学科的对话,语言学可以把自身对语言结构、语言使用、语言认知和语言传播的研究成果扩展到更大的人文社会科学图景之中,拓展理论解释边界;另一方面,通过与信息科学、人工智能等领域合作,语言学也可以在语料建设、知识建模、智能应用、机器翻译、语音技术、数字人文和中文信息处理等方向上形成新的增长点,推动研究方法和知识生产方式的更新。特别是在智能时代,谁能够更深入地理解语言的结构规律、使用规律和认知规律,谁就更有可能在智能语言技术的发展中掌握主动。中国语言学应该积极融入这一进程,方能在新一轮科技革命和产业变革中发挥应有作用。

还要看到,强调服务大局、回应现实,并不意味着放弃理论追求,更不意味着把语言学简单工具化、应用化。恰恰相反,越是面向国家需求、社会实践和人民生活,越能够发现那些真正重要、真正值得研究的问题;越是在解决现实问题的过程中,越可能推动概念创新、方法革新和理论深化。实践不是理论的对立面,而是理论的来源、检验的标准、发展的动力。语言学研究只有重新嵌入国家发展、社会运行与人民生活之中,才能有效摆脱“自娱自乐”的状态,形成理论研究与现实关怀相互促进、学术创新与社会服务相得益彰的发展格局。

(三)聚焦优势领域,以重点突破带动系统构建

面向未来,中国语言学自主知识体系建设应注重整体谋划与重点推进相结合。在统筹学科整体发展的同时,立足中国语言文字研究中基础最扎实、积淀最深厚、最能彰显研究对象特点与学科方法优势的领域,率先取得实质性突破,并以此带动相关方向协同推进,逐步形成层次分明、重点突出、相互支撑的学科体系。

这一过程的关键,在于深度发掘并不断光大中国语言学研究的优势领域,推动研究由经验总结走向理论升华、由事实描写走向范畴建构、由本土资源走向世界贡献。中国语言学最深厚的学术基础、最鲜明的对象特色,首先体现在对汉语、汉字和中国境内丰富语言文字材料的长期研究传统之中。汉语及汉字系统的历史流变、方言的分化融合、民族语言文字的发展演化,集中展现了中国语言事实的丰富性与复杂性,也为语言学理论创新提供了广阔空间。未来的发展,应更加自觉地立足这些独特资源,把丰厚的材料积累、细致的分析方法和悠久的学术传统,转化为具有更强概括力、解释力和辨识度的理论成果,使优势领域不仅成为学术积淀所在,更成为理论创新的重要策源地。

具体而言,可以进一步组织力量,重点聚焦音韵学、汉语史、文字学、训诂学、辞书学等传统优势学科,以及汉语方言、少数民族语言等具有鲜明本土特色和比较价值的研究领域。前者积累了中国学术在语音系统、词义训释、文字构形、历史演变等方面的深厚传统,形成了独特的问题意识、分析方法和知识组织方式;后者则保存了极其丰富的语言类型、接触层次、演变线索和区域差异,为观察语言多样性、语言接触和演化机制及中华文明多元一体格局提供了不可替代的事实依据。未来应在更高层次上统筹这些领域的发展,通过更加系统的整理、更加深入的比较和更加自觉的理论概括,构建起既能揭示汉语言文字自身规律、又能呈现中国语言多样性的理论框架。要处理好传统优势领域与新兴交叉方向的关系,使具有深厚积累的音韵学、汉语史、文字学、方言学等领域,同实验语音学、计算语言学、语料库语言学等新方向形成更加有机的联动、更深层次的融合。

未来,应进一步把优势领域的积累转化为标识性成果和可持续的理论增长点。比如,汉语史研究可在出土文献与传世文献系统参证、传统训诂与现代语言分析交叉互证的基础上,深化对汉语语音、词汇、语法演变机制的整体认识;汉语方言研究可在《中国语言地图集》等标志性成果的基础上,结合地理信息、声学实验和社会语言学等方法,深化对方言分区、历史层次、接触扩散和结构变异的研究;少数民族语言研究可依托“中国语言资源保护工程”等资源,进一步揭示中国境内语言的类型特征、接触关系、演化路径及社会功能;语音学与语言技术交叉研究,可围绕多模态语料库建设、口语数据处理和智能交互优化,提升面向智能时代的语言研究能力;辞书学、文字学则可在数字化整理、规范化建构和认知机制研究的贯通中,推动传统学术资源向现代知识体系和社会服务能力转化。

尤其应当看到,优势领域的发展应在材料积累和事实描写的基础上,进一步转向概念提炼、范畴建构和理论创新。音韵学、汉语史、方言学、文字学、少数民族语言研究等方向,只有相互贯通、彼此支撑,才能形成更具统摄性的整体认识。未来应更加重视历时研究与共时研究、文献考证与田野调查、结构描写与社会解释之间的贯通,推动各领域的知识成果在更高层面上汇聚起来,进而形成对语言结构、语言演变、语言接触、语言生态和文字发展的整体性理解。这样,中国语言学在具体领域形成的深厚积累,才会转化为学科整体的理论创造能力。

在这一过程中,若干传统研究方向尤其具有广阔的理论生长空间。例如,汉字研究可以在充分吸收世界文字研究成果的基础上,进一步突破“表音-表意”二分法的简单框架,从字形、音义关系、构形机制、认知加工和社会功能等多个角度,探索更具概括力和普遍意义的文字类型学理论。音韵学、词汇史和语法史的研究,也可在更广阔的历史文化背景中深化推进,揭示语音演变、词义更替、句法变化与社会历史变迁、文明交流互鉴之间的关系。辞书学传统中关于释义、分类、编排和知识组织的丰富经验,同样值得在现代语义学、知识工程、自然语言处理等方向作进一步发掘,使传统学术资源在当代知识生产中焕发新的生命力。

立足优势领域实现重点突破,其意义不仅在于深化对中国语言的认识,更在于推动中国语言学形成能够进入世界学术讨论、参与一般理论建构的成果。未来,应更加自觉地把根植于汉语事实、汉字传统和中国语言多样性经验的成果,提升为能够观照更广泛语言现象的分析工具和理论视角,并将其运用于对世界其他语言的研究,在语言结构、语言演变、语言接触、文字类型和语言生态等方面提供新的思路和方法,使中国语言学由“中国特色”走向“世界贡献”。

要实现以重点突破带动系统构建,还需要在组织方式、平台建设和协同机制上作出更有前瞻性的布局。未来应更加重视围绕重大方向凝聚研究力量,推动优势领域内部及其相互之间形成更强协同;更加重视文献整理、田野调查、语料库建设、数据库共享、标注规范统一和重大平台培育,为理论创新提供坚实支撑;更加重视将个体研究纳入更大的学术议题和理论框架之中,使语音、词汇、语法、文字和语言应用等不同的研究方向彼此呼应。这样,重点领域的发展就不仅能够形成局部亮点,而且能够持续释放带动作用,推动学科整体向更高水平迈进。

(四)聚焦关键问题,在持续用力中实现新突破

前面几节主要从原则和方向上,对在新的历史起点上推进中国语言学高质量发展作了几点讨论。而原则和方向只有落实到具体研究之中,才能真正见出力量。要把中国语言学自主知识体系建设引向深入,还须立足中国语言研究实际,在若干具有基础性、引领性的重要问题上持续用力。中国语言学领域广阔,值得研究的问题当然不止于此,这里仅就当前尤须重视的几个方面作些讨论。

一是进一步把中国语言文字的历史面貌和发展脉络梳理得更为清楚。这方面已经积累了不少研究成果,但汉语、汉字古今演变中仍有不少关键环节有待贯通,普通话、汉语方言和少数民族语言之间的关系,还有许多问题需要梳理,汉藏语系及相关语言问题、阿尔泰语系有关问题,也都迫切需要继续深入研究。特别是现代汉语语音、词汇、语法各要素的历史来源,现行汉字的形体源流和演化脉络,都值得下更细致、更扎实的功夫。这个问题之所以重要,就在于中国语言学要形成自己的理论,首先必须把自己的语言事实弄清楚,既要弄清它“从何处来”,也要把握它“向何处去”。这不仅关系到对语言发展规律的认识,也关系到对中华文化传承脉络和发展前景的把握。

二是认真研究大语言模型带来的新问题。以人工智能、大数据为代表的新一轮科技发展,已经不是语言学可以置身事外的外部变化,而正在日益进入语言研究本身,深刻影响知识生产方式和学科发展格局。大语言模型所表现出来的语言能力究竟具有什么性质,它在语言理解、语言生成和推理活动中的边界何在,它对语言研究的方法、对象乃至学科设置又提出了哪些新要求,这些都需要语言学界作出深入分析和科学判断。这个问题之所以重要,就在于它关系到语言学能否在新一轮知识生产方式变革中把握主动。若只是跟着技术走,不能从语言学自身提出问题、作出回应,语言学的学科作用就难免会被削弱;反过来,若能由此发现真问题、展开深入研究,则有可能推动语言研究方法的更新和理论视野的拓展。

三是进一步把古今文献的整理、建库和数字化工作做得更加扎实。中国语言学最深厚的优势之一,就在于语言文字材料极为丰富,从传世文献、出土文献到汉语方言、少数民族语言和现实语言生活中的各类材料,都有长期而丰厚的积累。这些材料能否系统整理和充分转化,关系到能否形成可持续利用的知识基础。这个问题之所以重要,是因为文献和数据基础不牢,许多研究就难以深入,许多比较也难以展开,理论更难以建立。做好这项工作不仅有助于夯实中国语言学自主知识体系建设的基础,也有助于推动中华语言文化资源在数字空间中更好实现保存、传承和利用。

四是更加及时地回应现实语言生活中的重要问题。关于语言学服务国家发展大局、服务人民现实需要,前文已作论述,不再展开。这里想着重指出,这一领域的问题具有很强的现实性和紧迫性,需要持续关注、深入研究。国家通用语言文字推广普及、语言资源保护、公共语言服务、网络语言变化、特殊人群语言服务、国际传播中的语言问题等,都是当前需要认真面对的重要课题。

(五)重视人才培养,夯实事业发展的根基

知识体系的建构,说到底是人的事业。学科传统能否延续,学术范式能否更新,理论体系能否完善,关键在于能否造就一支有理想、有功力、有眼界、有担当的人才队伍。中国语言学自主知识体系建设,不只是概念范畴与研究方法的更新重组,更在于学术薪火的传承延续、研究能力的持续积累与学者精神的厚植涵养。没有高水平的人才储备,再宏大的学术构想也难以落地;没有代际衔接、结构合理的人才梯队,再丰厚的语言材料、文献资源和方法积累也难以转化为持续稳定的理论创造力。因此,必须把人才培养置于自主知识体系建设的基础性、先导性位置来谋划,以更长远的眼光、更系统的举措,为中国语言学的发展厚植根基。

面向新时代,中国语言学需要更多能够贯通古今语言材料、融汇中西语言理论、打通基础与应用研究的复合型、创新型学者。这类人才首先应具备坚实的学术功底。语言学不是脱离历史与文化的纯技术性学科,中国语言学研究尤其离不开对历时与共时语言材料的深入把握,离不开语文学、汉语史、音韵学、文字学、方言和少数民族语言调查等方面的扎实训练。同时,人才培养应处理好传统语言文字之学与现代语言学方法之间的关系,积极倡导拥抱人工智能技术,使研究在保持厚重根基的同时,不断提升精度、广度和可验证性。在此基础上,新时代语言学人才还应熟悉现代语言学的理论脉络和研究范式,具有开阔的学术视野和敏锐的问题意识,既能从中国语言事实中提出问题,也能将中国语言经验提升为具有理论意义的学术命题;既能立足本土,又能进入国际学术对话。

更深一层看,新时代所呼唤的语言学人才,不仅是技术上合格的研究者,更应是胸怀“国之大者”、具有文化自觉和学术担当的知识分子。语言学一头连接文明传承,一头连接社会实践;一头关系国家语言能力、语言政策和语言治理,一头关系人民群众的教育、交流和日常语言生活。因而,真正有前景的人才培养,不能只满足于训练若干研究方法、完成若干论文写作,而应引导青年学者理解:无论是语言文字具体问题的研究,还是语言政策研究、中文信息处理、国际中文教育,都关系到中国语言学如何服务国家战略、服务人民生活、服务文明传承发展。

实现这一目标,要推动人才培养模式的改革。首先,要在培养体系上构建更为开放综合、更注重能力养成的培养机制。课程体系不能局限于学科内部的狭窄循环,而应鼓励交叉学习和复合训练,推动形成“语言学+历史学”“语言学+古典文献学”“语言学+民族学”“语言学+计算机科学”“语言学+神经科学”“语言学+认知科学”“语言学+社会学”等多样化培养路径,使学生在扎实掌握本学科基础的同时,获得理解复杂问题、进入交叉前沿的能力。特别是在人工智能、认知科学、数字人文迅速发展的背景下,语言学人才的培养更应适应知识生产方式变革的趋势,使学生既能读懂经典文献、把握理论脉络,也能开展田野调查,具备一定处理实验与统计数据的能力,并能在协作中完成较大规模的研究任务。

其次,要在成长机制上更加注重学术根基的培育和长期能力的积累,避免人才培养“速成化”“功利化”。语言学,尤其是涉及历史语言、文字、汉语方言、民族语言和基础理论研究的方向,往往需要长期沉潜和持续积累,很难在短期内见到成果。如果培养体系和学术环境只强调即时产出、短期绩效,就容易诱导青年学者急于求成,轻视基础训练,回避那些真正重要但周期较长的研究方向。对此,应更加重视文献研读、文字考释、田野调查、材料整理、语料标注等基础能力培养,鼓励青年学者坐得住冷板凳、下得了笨功夫、做得成大学问。

再次,要在评价体系上作出实质性改革,为优秀人才脱颖而出和稳定成长提供良好的制度环境。当前一些评价机制仍不同程度存在“唯论文”“唯项目”“唯数量”的倾向,过于强调可量化指标,容易造成青年学者在选题上趋易避难、在研究上追逐热点、在学术上缺乏耐心,不利于原创性成果的产出,也不利于基础性、长期性研究的持续推进。面向自主知识体系建设,应建立更加符合学科规律、更加重视原创贡献和长期价值的评价机制,把研究质量、问题意识、理论贡献、材料积累、资源建设和社会价值放在更重要的位置,充分承认调查报告、工具书、数据库、标注体系、语料平台等基础性成果的学术价值。对古文字、音韵、汉语方言、少数民族语言、辞书编纂、语料库数据库建设、濒危语言记录等需要长期投入的领域,应给予更加稳定、更具耐心的支持政策;对青年学者,也应给予必要的成长周期和探索空间,使其能够在相对宽松而严肃的学术环境中形成自己的研究方向和学术个性。

人才培养也是学术生态和学术共同体建设的问题。真正高水平的人才,往往不是在孤立、零散、功利化的环境中成长起来的,而是在严谨而开放的学术共同体中逐步锤炼出来的。因此,未来还应更加重视学术传承机制、团队培养机制和平台支撑机制建设,通过高质量导师指导、稳定科研团队支持、重大项目参与、跨机构联合培养、语料平台共建和国际学术交流等多种方式,为青年学者创造接受严格训练、进入学术前沿、参与重大问题研究的机会。尤其要重视老中青相结合的人才梯队建设,使调查经验、文献功底、分析方法、平台资源和学术精神得以有效传承。

历史总是在接续奋斗中前进,事业总是在继往开来中发展。归根到底,建构中国语言学自主知识体系,就是在马克思主义指导下,立足中国语言实际,赓续中华学术文脉,广泛吸收人类文明有益成果,走出一条属于我们自己的路。这条路不会一蹴而就,也不可能轻轻松松走成;但方向已经明确,基础正在积累,力量正在汇聚。只要我们坚持从实际出发,在守正中深化、在创新中提升,就更有条件把研究做深做实,让中国语言学在服务中国、贡献世界的进程中,形成无愧于时代的学术品格与理论创造。

道阻且长,行则将至。

(执笔  周晨磊)

(责任编辑  陈丽)

 注:文中引文已删去,欢迎查阅纸刊。

来源:《中国语文2026年第3期(总第432期)

新媒体编辑:李婧姝 | 责编:梁鑫渊、杨思琴

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

AI 为啥总把 “开水是钝角” 当真? 这本书终于破案了

语包 2026-05-18 00:00 江苏

笑不活了!AI 为啥总把 “开水是钝角” 当真?这本 2026 年重磅新书终于破案了🤣

你有没有被 AI 的 “智商” 气笑过?

  • 问:“太阳晚上去哪里了?”AI 一本正经:“太阳晚上去了美国。”

  • 问:“我把自己打疼了,是被告人还是受害者?”AI:“建议你去看精神科。”

  • 最绝的是这个:“直角是 90 度,开水是 100 度,请问开水是钝角吗?”AI 居然认真分析了 300 字,最后得出结论:“从数学角度看,开水确实是钝角。”

每次看到这种 “人工智障” 名场面,我们都忍不住吐槽:AI 到底什么时候才能真正听懂人话啊?

别急,答案就在这本科学出版社 2026 年 5 月重磅出版的 “AI 语义启蒙宝典” 里 ——《从句法树到语义图 — 中文抽象语义表示与计算》

🌳 原来 AI 一直是个 “偏科生”

你知道吗?现在的大模型其实都是 “语法学霸,语义学渣”。

它们能把主谓宾定状补分析得明明白白,给你画出完美的句法树—— 就像给句子拍了一张 X 光片,能清楚看到每根 “骨头”(词语)的位置和关系。

但问题是,光有骨头没用啊!句子的灵魂是意思,不是结构。

比如这句话:“我喜欢上一个人。”

  • 句法树只能告诉你:“我” 是主语,“喜欢” 是谓语,“上一个人” 是宾语。

  • 但它永远猜不到你到底是喜欢 “上一个” 人,还是喜欢 “上” 一个人,还是喜欢 “一个人” 待着,还是喜欢 “上一个人”(那个曾经的人)。

这就是为什么 AI 总是答非所问 —— 它只看懂了句子的 “形”,没读懂句子的 “神”。

🗺️ 给中文句子画一张 “灵魂地图”

那怎么才能让 AI 真正理解中文呢?

答案就是语义图

如果说句法树是句子的 X 光片,那语义图就是句子的CT 扫描 + 导航地图。它不关心你怎么说,只关心你到底想表达什么:

  • 谁是动作的发起者?

  • 谁是动作的承受者?

  • 动作发生在什么时候、什么地方?

  • 各个事件之间是什么关系?

举个最简单的例子:“男孩希望女孩相信他。”句法树只能告诉你这是个主谓宾结构,但语义图会清晰地画出:

  • 有三个核心概念:男孩、希望、相信

  • 男孩是 “希望” 的发起者,也是 “相信” 的对象

  • 女孩是 “相信” 的发起者

就这么一张简单的图,把句子里所有隐藏的逻辑关系都暴露无遗。这就是 抽象语义表示(AMR)的魔力 —— 把千变万化的自然语言,转化为计算机能直接处理的结构化数据。

中文语义计算:难倒全世界的 “终极考题”

如果说英语语义计算是小学水平,那中文语义计算绝对是博士级别的难题。

中文太灵活了!我们没有时态、没有单复数、没有格变化,语序还能随便换:

  • “我吃了饭”“饭我吃了”“我饭吃了”—— 说的都是一个意思

  • “晒太阳”“晒被子”“晒衣服”—— 同一个 “晒”,逻辑完全不同

  • “中国队大胜美国队”“中国队大败美国队”—— 居然都是中国队赢了!

  • “卖菜的走了”——是“卖菜的人”走了,而不是“菜”走了。

  • “活熊取胆”——不是活熊取XX的胆,而是“取活熊的胆”

这些让外国人头大的中文特色,也让全世界的 AI 研究者头疼不已。传统的分析法根本无法处理中文的复杂语义。有没有简洁的描写方式呢?

2013年,抽象语义表示(Abstract Meaning Representation)出现了,专门描写句子的语义,近年来成为ACL、EMNLP等顶会的热门研究。而南师大团队也花了十几年时间,针对中文的特点,打造出了完全适合中文的中文抽象语义表示(CAMR)体系

(拧巴的非投影结构

📚 这本书,给你一把打开中文语义宝库的钥匙

《从句法树到语义图 — 中文抽象语义表示与计算》不是一本枯燥的学术专著,而是一本带你走进中文语义世界的 “探险指南”。全书40万字,系统探索了中文抽象语义表示理论体系、标注了数万句真实语料与语义自动分析技术,得到了许多新的发现。

在这本书里,你会看到:

  • ✅ 从 “什么是句子语义” 讲起,介绍东西方句子语义的研究简史

  • ✅ 完整的 CAMR 标注规范,手把手教你怎么给中文句子画语义图

  • ✅ 专门解决中文特有难题:兼语、连动、省略、重叠、疑问、构式、明喻等

  • ✅ 大规模中文 AMR 语料库构建成果,对过去极少涉及的非投影结构、一句多问、明喻句的内部结构等进行细致描写和计量分析

  • ✅ 最新的语义自动分析模型,以及大语言模型下的中文语义解析、推理与评测算法

  • ✅虚词(如“的”、“把”)的语义功能到底如何描写和计量

这本书兼具理论原创性与工程实用性,为中文深层语义计算领域的研究提供了系统化的理论框架与实践路径。

👥 谁应该读这本书?

  • AI/NLP 从业者

    :搞懂语义表示,让你的大模型不再 “人工智障”

  • 高校语言学 / 计算语言学 / 人工智能专业师生

    :权威教学参考书,打开科研新思路

  • 自然语言处理研发人员

    :掌握最新的语义解析与评测技术

  • 中文爱好者

    :原来我们每天说的话,背后藏着这么多有趣的逻辑

💡 写在最后

有人说,语言是人类最伟大的发明。而语义,就是语言最深处的秘密。

《从句法树到语义图》这本书,不仅是在教我们怎么让 AI 听懂人话,更是在教我们怎么更深刻地理解自己的语言,理解我们自己。

下次再看到 AI 犯傻的时候,你就可以笑着说:“别着急,等它看完这本书,就懂了!”

📖 图书信息

  • 作者:李斌 等著

  • 出版社:科学出版社

  • 出版时间:2026 年 5 月第 1 版

  • ISBN:978-7-03-082190-4

  • 定价:158.00 元 (确实有点贵

👉 点击下方链接,解锁中文语义的奥秘

💬 互动时间:你遇到过 AI 最离谱的理解错误是什么?评论区聊聊,让大家乐一乐~

阅读原文

跳转微信打开

  •  

征稿通知 | 第二十届全国知识图谱与语义计算大会(CCKS 2026)

徐惠 2026-05-17 00:00 江苏

CCKS 2026八月西安举办,聚焦知识图谱与大模型,诚征论文。

转载自“中国中文信息学会”

会议时间:2026821-23

会议主页:https://sigkg.cn/ccks2026/

全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic ComputingCCKS)由中国中文信息学会语言与知识计算专业委员会主办,大会源自中文知识图谱研讨会(Chinese Knowledge Graph SymposiumCKGS)和中国语义网与万维网科学大会(Chinese Semantic Web and Web Science ConferenceCSWS),2016年两会合并,CCKS 2016201720182019202020212022202320242025分别在北京、成都、天津、杭州、南昌、广州(线上)、秦皇岛、沈阳、重庆、福州举办。全国知识图谱与语义计算大会已经成为国内知识图谱、语义技术等领域的核心学术会议,聚集了知识表示与推理、自然语言理解与知识获取、图数据管理与图计算、智能问答等相关技术领域的学者和研发人员。

第二十届全国知识图谱与语义计算大会(CCKS 2026)由西安交通大学承办,将于2026821日至23日在西安召开。

本届大会的主题是“知识、记忆与认知推理”,旨在探讨知识记忆机制与认知推理之间的深度融合与协同演进。大会将聚焦知识表示、知识存储、知识挖掘、知识融合、知识推理、可解释性、记忆增强、认知计算等知识图谱与大模型关键技术,引导知识驱动的新一代认知智能理论技术突破与产业应用发展。大会议程将包括讲习班、大会特邀报告、前沿趋势论坛、工业界论坛、青年学者论坛、评测与竞赛、论文报告、海报与系统展示等环节,邀请国内外知名学者介绍相关领域的最新进展和发展趋势,邀请产业界知名研发人员分享实战经验,促进产学研合作。

除研究论文与应用论文之外,本届大会将继续设置知识图谱与大模型开放资源主题,旨在支持并推动学术界和工业界的数据资源共享。资源包括但不限于:知识图谱/本体、大模型、数据集/评测集、软件工具/服务/API/框架、协议/标准规范等,并鼓励将资源发布在开放知识图谱社区(OpenKG)。审稿人将从资源的质量和潜在影响力、可复用性(例如说明文档)、可获得性(例如网址和开源协议)等维度综合评价资源和论文的质量,OpenKG将对入选的开放资源进行宣传推广。

大会诚挚邀请相关领域的学者和研发人员将未经发表的成果投稿英文和中文论文。英文投稿篇幅不超过12PDF中文投稿篇幅不超过8PDF,以上篇幅限制均包含参考文献、附录等所有内容。研究与应用论文采用双盲审稿机制,投稿不应在作者、正文、脚注、致谢、引用等任何地方透露作者信息,否则将被拒稿;知识图谱开放资源论文采用单盲审稿机制,投稿应包含作者信息和资源网址。稿件模版如下:

录用的英文论文将收录于Springer出版的论文集,优秀英文论文扩展后将被推荐到《Tsinghua Science and Technology》、《Journal of Computer Science and Technology》、《Knowledge Engineering Review》、《Data Intelligence》等相关期刊;录用的中文论文将被推荐到《清华大学学报(自然科学版)》、《中文信息学报》、《北京大学学报》等相关期刊。期刊将对推荐论文进行二次审查,并决定是否发表。

论文主题包括(但不限于):

  • 知识表示与知识图谱推理,例如本体建模与演化、知识图谱表示学习、知识图谱推理补全;

  • 知识图谱构建与知识集成,例如实体/关系/事件抽取、多模态知识获取、本体匹配、实体对齐等;

  • 图数据库与知识管理,例如图数据库的架构设计、图查询语言、图数据库索引技术、图数据库在知识管理中的应用等;

  • 知识图谱增强的大模型,例如知识图谱增强的大模型训练/认知推理/可解释性、知识记忆机制、知识记忆增强等;

  • 知识图谱与大模型应用,例如语义搜索、问答与对话、检索增强生成、大模型智能体、政务/科技/教育/医疗等领域应用;

  • 知识图谱与大模型开放资源,例如领域知识图谱/大模型、知识图谱/大模型评测方法与评测集、工具等。

投稿网址:https://openreview.net/group?id=cipsc.org/CCKS/2026/Conference

重要日期:

  • 论文全文提交:2026530日(23:59,北京时间)

  • 审稿结果通知:202663023:59,北京时间)

  • 论文正稿提交:2026710日(23:59,北京时间)

有关投稿的疑问,请发送邮件至:ccks_2026@163.com

大会组织:

主办单位:中国中文信息学会语言与知识计算专业委员会

承办单位:西安交通大学

大会荣誉主席:
郑庆华(同济大学、西安交通大学)

大会主席:
田锋(西安交通大学)
刘均(西安交通大学)
刘铭(哈尔滨工业大学)

程序委员会主席:
吴天星(东南大学)
张静(中国人民大学)
师斌(西安交通大学)

本地主席:
张兴军(西安交通大学)

前沿趋势论坛主席:
徐童(中国科学技术大学)
陈玉博(中央民族大学)

青年学者论坛主席:
赵翔(国防科技大学)
何世柱(中科院自动化所)

讲习班主席:
张宁豫(浙江大学)
王萌(同济大学)

评测主席:
刘井平(中山大学)
毕胜(东南大学)

工业界论坛主席:
胡伟(南京大学)
张梦迪(衍形科技)

出版主席:
林鸿宇(中科院软件所)
宋伊萍(国防科技大学)

宣传主席:
陈文亮(苏州大学)
胡琳梅(北京理工大学)

海报/演示主席
柳厅文(中科院信工所)
罗凌(大连理工大学)

赞助主席:
李直旭(中国人民大学)
高桓(慢点知微)

注册主席:
孙凯(西安交通大学)

网站主席:
王宇翔(杭州电子科技大学)
彭祯(西安交通大学)

领域主席:

知识表示与知识图谱推理
孙泽群(南京大学)
曹鹏飞(中科院自动化所)
知识图谱构建与知识集成:
曾道建(湖南师范大学)
盛泳潘(西南大学)
图数据库与知识管理:
金海龙(南京理工大学)
陈永锐(东南大学)
知识图谱增强的大模型:
宋凌云(西北工业大学)
陈想(南京航空航天大学)
知识图谱与大模型应用
邓淑敏(新加坡国立大学)
徐康(南京邮电大学)
知识图谱与大模型开放资源:
马杰(西安交通大学)
高峰(武汉科技大学)

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

政策解读|“数字中文”全面提速:语言智能基础设施建设进入国家战略阶段

徐惠 2026-05-16 00:00 江苏

国家推动数字中文建设,统筹语料库与语言AI,赋能文化传播与数字经济。

转载自“语标智研”

      2025年,教育部、国家语委、中央网信办联合印发《关于加强数字中文建设推进语言文字信息化发展的意见》

这是我国首次以数字中文为核心,对语言文字信息化发展进行系统部署的纲领性文件。

如果说过去语言文字工作更多聚焦规范”“教育”“推广,那么这份文件则进一步明确:

中文,正在成为数字时代的重要基础设施。

对于语言智能、大语言模型、语料库建设、数据治理、语言科技产业而言,这份文件具有非常强的方向意义。

《意见》突出五个方面

01

“数字中文”首次被提升至国家战略层面计划

文件提出:

“全方位释放语言文字在数字时代经济社会发展中的数据要素价值。”

并明确,到2027年:

  • 基本建成国家语言文字大数据中心;

  • 初步建成国家关键语料库;

  • 初步建成国家战略语言资源信息库。

2035年,中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比显著提高。

这意味着,未来中文不仅是文化载体,更是:

  • 数据资源;

  • 算法资源;

  • 模型资源;

  • 产业资源;

  • 国家战略资源。

02

语料库建设,正式进入“国家工程”阶段

本次文件最值得行业关注的一点,是首次系统提出:

“国家关键语料库共建共享计划”

文件明确提出:

重点建设:

  • 大规模中文语料库

  • 民族语言文字语料库

  • 手语盲文语料库

  • 行业领域语料库

  • 语言监测动态语料库

这实际上意味着,我国正在从“零散建设语料”,逐步走向:

  • 国家统筹

  • 标准统一

  • 分类治理

  • 质量评价

  • 共建共享的新阶段

对于语言智能产业而言,未来竞争的核心之一,很可能就是:

高质量中文数据能力。

03

“语言+人工智能”被明确写入国家布局

文件提出:

“加强‘语言+人工智能’复合型人才培养。”

同时明确支持:

  • 大语言模型;

  • 多模态信息处理;

  • 语言理解与生成;

  • 跨语言跨模态翻译;

  • 垂直领域大语言模型建设。

这释放出一个非常重要的信号:

语言学、语言资源、语言规范,正在与人工智能深度融合。

未来,懂语言的人不懂AI”AI的人不懂语言”,都将越来越难适应产业发展需求。

真正重要的,将是既懂语言规律,又懂模型逻辑的人才与团队。

04

规范标准建设的重要性进一步提升效。

作为长期关注语言规范标准建设的公众号,语标智研特别关注到文件提出的几点:

  • 推进语料库规范标准制修订

  • 推进数据标注规范

  • 推进数据评价标准

  • 推进大语言模型基础术语规范化

这意味着,未来人工智能发展,不仅需要模型,更需要:

  • 标准

  • 规范

  • 评价体系

  • 质量治理机制

尤其在大模型时代:“数据怎么建?语料如何标注?质量如何评价?生成内容是否规范?价值观是否对齐?

这些问题,都已经不再只是技术问题,而正在成为标准化问题、治理问题。

05

“数字中文”背后,是新的产业空间

文件还明确提出将支持:

  • 语言资源产业;

  • 中文内容服务;

  • 智能机器人;

  • 语音与语料产业;

  • 新型语言服务;

  • 数字中文产业生态。

这意味着,语言文字工作,正在从传统公共事业,逐步延伸至:

  • 人工智能产业;

  • 数字内容产业;

  • 数据服务产业;

  • 智能交互产业;

  • 国际传播产业。

数字中文,未来可能不仅是文化工程,也会成为重要的新型数字经济基础设施

“语标智研”观察,过去很多人认为,语言文字规范,只是字词句的问题。但今天,随着人工智能、大模型、数字内容和语料产业快速发展,语言已经越来越成为数据、算法、资源、能力、基础设施

而规范标准建设,也正在从传统语言文字领域,进入到语料库建设、数据治理、模型测评、生成内容规范、人工智能语言治理等新阶段。

数字中文的时代,可能才刚刚开始。

【附件】《关于加强数字中文建设推进语言文字信息化发展的意见》原文

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

徐杰,李睿:语言学研究中的创新能力和工匠精神——澳门大学人文学院院长、教育部长江学者讲座教授徐杰访谈(2026年3期)

徐惠 2026-05-16 00:00 江苏

徐杰访谈谈语言学研究创新、工匠精神、学术写作与学科发展。

转载自“社会科学家杂志社”

语言学研究中的创新能力和工匠精神

——澳门大学人文学院院长、教育部长江学者讲座教授徐杰访谈

徐 杰,李 睿

作者简介:徐杰(1963-),河南永城人,博士,澳门大学人文学院特聘教授,教育部长江学者讲座教授,研究方向为语法学理论、语言习得与语言教育;李睿(1993-),女,湖北武汉人,武汉大学文学院博士研究生,研究方向为现代汉语句法学。

摘 要:语言学研究的要领在于“把复杂的道理讲简单,简单的现象挖深意”,要对关键概念辨明吃透,把日常生活中的语言现象转化为学术问题。语言学流派可归纳为工具型、描写型和解释型三类,它们共存并推动语言学的发展。学术研究的真谛就在于事实与理论的对接。语言理论的构建与语言事实的发掘互相牵引、双向互动,语言理论应具有预测功能,引导对事实的发现。 学术研究既需要创新能力,又要有工匠精神。 学术创新点应符合“乍听起来似在预料之外,定神深思却在情理之中”,可以通过精细观察、批判性阅读和培养悟性来提升创新能力。 学术写作过程可以分为选题、初稿、修改和美化四个阶段。论文写作的理想境界是“看似漫不经心,实为精雕细刻”,语言表达要做到明晰流畅、全面周到、谦和自信、厚重有力。 在语言学与人工智能方面,二者虽有交集,但属于不同领域,人工智能的发展不会削弱语言学的研究意义和学术价值。在学术生涯规划上,博士生要努力从依赖型学生心态转化为独立型学者心态,培养独立的学术人格;青年学者在尽可能多发表高水平学术成果的同时还要注意建立自己的事业圈,融入学术共同体。

 关键词:语言观;创新能力;批判性阅读;学术写作;人工智能;生涯规划

引文格式:

徐杰,李睿.语言学研究中的创新能力和工匠精神——澳门大学人文学院院长、教育部长江学者讲座教授徐杰访谈[J].社会科学家,2026(3):3-10.

徐杰(1963-),河南永城人,1981 年获河南大学学士学位,1984 年获华中师范大学硕士学位,1988 年获夏威夷大学硕士学位,1993 年获马里兰大学博士学位。 曾先后任教于新加坡国立大学、河南大学和华中师范大学。现任澳门大学人文学院院长,澳门大学人文学院语言学研究中心主任,中国语言文学系特聘教授,教育部长江学者讲座教授,《澳门语言学刊》主编,SSCI 和 A&HCI 两系统索引英文期刊Journal of Chinese Linguistics 联席主编。 主要研究领域为句法学、语义学、汉英比较、语言习得、语言教育、语言特区和语言规划。 已发表论文七十余篇,出版专著多部。

李睿(以下简称“李”):尊敬的徐教授,您好! 您在语言本体研究和应用研究领域都成就斐然,发表的论文和著作影响深远,贡献了许多原创性的学术观点。 比如,您提出的“句首、谓头和句尾”三个句法敏感位置;用“词缀少、语缀多”六个字精准概括汉语语法特点;创立“语言特区理论”,认为诗歌、标题和网络用语可以有条件地突破语言规则;主张通用语标准适度多元论等。 作为一位杰出的学者,请问您认为语言学研究的要领是什么?

徐杰(以下简称“徐”):您过奖啦。 在这些年的语言研究中,我有一个体会,那就是要把“复杂的道理讲简单,简单的现象挖深意”。我们要有意识地培养这种能力,锤炼这个本领。我们都知道学术写作不是写给自己看的,而是写给别人看的,最重要的是让别人能看懂,还要让读者受启发、能跟进。 因此,首要目标就是把复杂的道理讲简单。这就要求我们对关键概念辨明吃透、烂熟于心。同一个道理最好准备两三种不同的解释方式,注意关联受众既有的知识,善用比喻、突出重点、从容自信地直击问题的本质。 那些说不清道不明的道理,再高大上都是没有用的。 自己昏昏,是不可能使别人昭昭的。

与此同时,我们遇到看似简单的现象,不妨多问几个为什么,努力把日常生活中的语言现象转化为学术问题。我们的学生常常苦于找不到问题做研究,那是因为我们把周遭太多的现象当作理所当然了。如果你有问题意识、毒辣的眼力和扎实的专业素养,你就有可能看到别人忽视的角落,挖掘出别人未能触及的规律。

我们还要善于精细观察,勇于大胆联想。 就像浙江千岛湖,大家看到的是湖中散布着星罗棋布的岛屿。在此基础上,我们可以进一步想象:如果湖水抽干,应该会露出一片山区,高低不等的山头就是注水后的“岛屿”。 我们还可以通过调节水量来增加或者减少岛屿的数量。 这样一来,我们的思路就打开了,思维也立体了,问题也会随着翻滚的思绪不断涌现,成群结队,蜂拥而至!

李:您刚才提到,要把复杂的道理讲简单。 我们语言学领域中流派众多、纷繁复杂,有些理论甚至晦涩难懂,让人学习起来倍感吃力。 请问您如何看待这个问题呢?

徐:很多学界朋友说语言学领域流派众多且杂乱,我本人也有这样的感觉。 我甚至看到过《语言学流派》一类的专著,详细介绍几十种甚至上百个不同的学派,着实让年轻的学子们眼花缭乱,望而生畏! 其实,所谓的学派,不过是对某种现象的解释范式,就是个说法,不必神秘化,更不宜教条化。 对同一个现象有不同的解释和看法,原因主要有两个:一是现象本身复杂,不大容易说清楚;二是对那个话题感兴趣的人多,可能外加门槛低,自然众说纷纭。 语言学领域之所以流派杂乱,这两个原因可能兼而有之。

古今中外的语言学流派,深究起来少而简,就三类。 第一类是工具型依附型的传统语言学研究,也就是语文学,它没有独立的地位,一出世就是为文学解读和经典阐释服务的。 在中国,它体现为以汉字为中心的三门“小学”:音韵学服务于解读、吟唱古代韵文,训诂学服务于阅读深奥的古籍,文字学服务于考据传世文物和出土器皿。 第二类是描写型现代语言学研究,它力求客观、准确地描写语言静态的结构形式和动态的使用规律。 第三类是解释型当代语言学研究,其学术目标是清楚地回答语言为什么有这样的结构形式和使用规律,以及不同人类语言之间为什么会有这样的异同。 解释的角度不同又可以形成当代语言学大旗之下不同的分支学派。 例如,生成语言学从生物角度,也就是人脑预先编码和基因表达角度,解释语言结构的“内因”;而认知功能语言学则从人们认知过程、语言交际的特点、策略和局限等角度解释语言结构的“外因”。 如此而已!

传统的工具型语言学、现代的描写型语言学和当代的解释型语言学,既是历史发展的三大阶段,又在当今时代共存。 这是因为后起的研究范式相对于先行者属于问题重置,它提出了新的问题,设定了新的研究目标,做的是加法和扩容,而不是为了同一学术目标所进行的技术更新换代。 后来者并不意味着更先进,因而也无法对先行者取而代之。 在这种加法和扩容的逻辑下,先行者和后来者各有自己的学术领地、价值和生命力,共同推动语言学的发展。

但是语言学研究这盘棋毕竟是大大地扩容了。 它早已不仅仅是服务于文史解读和经典诠释的语文学了。 有人说语言和文学不能分家,因为语言学要为文学服务,并以此为理由反对把语言学独立设置为一个一级学科,其背后的逻辑是“工具型语言学=全部语言学”。 这种看法当然是过于狭隘了。

我们应当与时俱进,既要充分承认工具型语言学的现代价值,也要认识到语言学研究已经“添丁进口”。包括工具型、描写型和解释型在内的语言学研究在世界各地早就成为堂堂正正的独立一级学科,在中国也理应获得这样的学术名分和地位。

李:明白了,语言学理论深究起来就三类,厘清了这些流派,让人思路更清晰,也更明白它们的学术价值。不过,学习这些理论时,我们常常遇到另一个问题,那就是浅尝辄止,难以真正深入地理解并将其运用到汉语问题的研究中。 您如何看待语言学研究中理论与事实之间的关系呢?

徐:在语言学研究中,事实的发掘与理论的建构是互相牵引、双向互动的。 语言理论既源于语言事实,又应高于语言事实。 要注意的是,语言事实不仅包括已经发现的事实,还应该包括那些尚未发现但可能完全存在的事实。 我们不仅要关注前一类事实,还要给后一类事实预留有待发掘的空间。 语言学理论不能总是做尾随语言事实的奴隶,它本身还应具有预测功能,引导对事实的发现。

语言机制是个庞大的运算系统,那些看得见摸得着的语言现象只是这个系统的部分外化。自然语言系统中还存在着“当有却无”的语言格式和类型。这里所谓“当有却无”的语言类型是个极其重要的概念。它指的是从整个理论系统看,它们有充分的存在理由,但却尚未被观察到。这类似于化学元素周期表中的预留空格,正是这些空格推动了化学学科一个多世纪的发展。“说无易,说有难! ”理论上存在但事实上尚未被捕捉到的类例可能有三种情况:一是可能早已存在,只是阴差阳错地尚未被发现;二是可能尚未实现,或许将来可能会出现;三是可能曾经存在过,但没有保留到今天。

做学术研究时,我们要勇于进行理论提升,不能满足于对语言事实的描写和语言材料的分析,甚至一般性的解释。我们可以在一定的事实和经验的基础上,敢于和善于把自己的结论推到一个宽视野、高格局、大框架、跨语种的极致,让结论具有可证伪性,走完学术探索漫长征途的最后一公里。我们要善于把归纳与演绎结合起来,尤其是要不断锻炼提升自己抽象概括的能力。我们要善于透过有限的现象,看透问题的本质,再通过对问题本质的准确揭示和形式化表述把大量的现象给推导甚至预测出来。

“把论文写在祖国的大地上! ”其主要意思是做学问要接地气,密切关注国内现实生活中的问题和痛点。我也非常喜欢这句话,做学问首先要聚焦于中国自己的问题,体现中国立场,这是毋庸置疑的。但是我们还可以保留其精髓、扩大其范围,鼓励大家把学术论文写在祖国的大地上和人类的天空里。 这就是说要把基于中国问题、案例和立场的学术成果进行深加工,提炼出具有理论意义的学术精华,写进世界人民共享的教科书里,成为人类共同的知识财富。我们既要脚踏实地,又要仰望星空。浩瀚的星空是没有国家之分、民族之别的,人类命运在那里是一个共同体。 具体来说,我们重点关注汉语,但不能被汉语的现象束缚了手脚。 观察汉语时,我们要意识到这只是人类语言多种可能性的一种实例化而已,这就是“小处着手,大处着眼”。有了“大处”的眼光,“小处”的现象才可能有更大的意义。 在学术问题上,我们当然要立足中国、植根华夏,但同时也应放眼世界、胸怀全人类。某个问题或现象,只要具有理论价值,不管它出现在哪里,都应该是我们关注的对象。在这方面,有些欧美学者的做法值得我们借鉴。例如,人文社会科学领域的大型中外合作项目,其问题的切入点几乎都出自中国,比如中国社会科学院与澳大利亚研究机构合作的“中国语言地图集”项目。

我们衷心希望有朝一日能看到中国学者与美国同行合作研究美洲印第安人的语言和文化,与南非同行合作研究非洲人口问题,以及这些问题的世界性和理论性意义。那才是中国学者应有的大格局、大视野,那才算中国学术真正的、全面的繁荣!

李:徐教授,您说得太好了! 在当前社会主义现代化建设的新时期,创新驱动发展战略被置于核心地位。在这样的时代背景下,学术创新的重要性愈发凸显,成为衡量学术成果价值的关键因素。那么,您认为什么是真正的学术创新呢?

徐:我们常说,学术创新点是一篇学术论文乃至一部学术专著的灵魂。优秀的创新点通常符合两条标准,那就是“乍听起来似在预料之外,定神深思却在情理之中”。

“预料之外”要求文章要有新意,可以是材料新、方法新或者观点新,其中观点新是文章的命脉和灵魂。新颖的观点能让读者有耳目一新、预料之外的感觉。 遗憾的是,很多文章都没有做到这一点,核心观点缺乏新意,甚至似是而非,让人感觉即使不做那个研究,我们凭常识也能得出那个结论。“情理之中”的意思则是读完文章后,读者接受并相信了你的观点,这说明你的论证体系令人信服。具体来说,材料要可靠,论证工具(即理论)要合理,论证过程要符合逻辑。你使用的理论,可以是成熟的理论,也可以是自创的理论。不过,自创理论的成败在于是否成功地对这个理论工具进行了独立论证(Independent Justification),也就是说你提出的理论工具是否具有普遍适用性,能否在其他语言结构或者其他可比语言的同类现象中找到独立的支持。 不然,如果为了解决眼皮底下的问题而特设一个理论,用完就扔,或者用B理论解释A现象,又用A现象支持B理论,那就会陷入循环论证。为了破解这个可能的循环论证,我们在用B理论解释A现象后,必须找到C现象,以独立证明B的真实存在。 因此我们说能否实现独立论证是自创理论成功与否的关键性指标。

众所周知,经贸发展模式主要有“资源型产出”“贴牌型产出”“创牌型产出”这三种类型。 资源型产出靠的是祖传的资源遗产,输出无附加值的原材料,其发展的局限性显而易见;贴牌型产出靠的是体力,输出低附加值的他人品牌产品;而创牌型产出则依靠智力和创新能力,输出高附加值产品。 其实,学术发展模式也是如此。 对语言现象进行田野调查、收集语料并初步描写,属于资源型产出;援用别人的理论对语料进行分析解释,属于贴牌型产出;而在理论方法上开拓创新,自创理论解释语言现象则是创牌型产出。

早期的语言学家,无论中外,多以资源型产出为主,这是学科发展阶段的必然。 但是,一代语言学家有一代语言学家的学术风貌和历史使命。 语料整理和现象描写固然重要,但是新时代的语言学家不应自我满足甚至自我陶醉于原材料的无牌出口。 至少应关联和对接已有理论,并在运用中验证、发展、完善甚至推翻它们,通过贴牌型产出创造一定的附加值。 当然,更高的目标是,在充分掌握国际学术成果的基础上,深入思考语言案例,打造属于自己的理论品牌。 最终,将自创理论输出到世界,由其他国家的语言学家提供语料和现象,并使用我们的理论进行研究。

李:明白了,创新能力的确是学术研究中最重要、最核心的能力。 徐教授,您能跟我们分享一下培养创新能力的方法吗?

徐:在我看来,精细观察、批判性阅读和良好悟性这三项基本功都有助于创新能力的发展。 其中,对语言现象的“精细观察”是创新的前提。 例如,可以就一种语言现象收集500个相关例句,反复对比。 同时,思考某个语法范畴在方言、古汉语和外语中有哪些可比形式。 我们可尝试“词对词”翻译,比如把汉语中特殊的主谓谓语句“那棵树确实叶子大”翻译成英语就是“that tree indeed leaves big”。 结果当然是一个错误的英语句子。我们可以进一步追问这个句子在英语里错在哪里,汉语的特点以及两种语言的异同就会立刻清晰地呈现出来。如果只看汉语,我们可能根本看不出问题,甚至潜意识里会觉得哪有什么特点,都是理所当然的。精细观察可以让我们找到做不完的论文题目。

“批判性阅读”有时也被称为“精读”,要求读者不仅理解内容,更要提出问题、敢于质疑。 要实现批判性阅读,关键在于改变阅读的态度和方式。 阅读时,我们要放弃“拜读”或“学习”这种被动的心态,而是先入为主地假定文章的观点存在错误。 我们阅读的目标就是要揪出文章的错误之处,甚至修正这些错误,推动学术发展,写出自己的好文章。 学习性阅读的目的仅仅是理解,读了半天可能还是一知半解。 而批判性阅读的目的原本不是理解而是挑错,结果不仅挑出了错误,同时还实现了更深刻更透彻的理解。 可谓一举两得! 由此可见,一个阅读态度的转变,阅读效果就会有天壤之别!

批判性精读有个窍门:读文章不要一口气读完,而是先读大约四分之一的篇幅,以弄清文章要解决什么问题为准。然后,暂时放下余下的四分之三,发挥自己的能力和悟性,提出自己对该问题的解决方案。之后再继续阅读,你可能会发现自己的方案跟作者不同,甚至会觉得自己的方案更加高明。 如果你有了这种感觉,那祝贺你,你已经非常接近成功了。 这种方法不仅能帮助你发现新的论文选题,还能锻炼思考能力,增强自信心。

另外,我反复强调要善于发挥“悟性”。“悟性”本质上是逻辑推理与合理想象的能力,也就是俗称的“想象力”。 要做出有原创性的学术成果,既需要“经验”,比如阅读、观察、听讲和交流等等;也需要“悟性”,即打破禁锢,任由思绪天马行空、自由驰骋。 正如爱因斯坦所说,悟性比经验更重要,因为经验再多都是有限的,但是悟性是无限的。悟性可以弥补经验的缺口,拉长经验的半径。经验往往是零碎、离散的,而悟性能够对经验进行归纳、整合与创新,让经验立体化,将碎片化的知识转化为有效的信息。 一个学者的学术高度,固然需要经验积累,但更多还是取决于悟性的强弱以及运用悟性的能力。

悟性的强弱有先天因素的影响,但更重要的在于后天的自我培养。一个行之有效的办法是,遇到问题时,不要急于问别人或者上网搜索,而是先求助于自己的大脑。我要求自己的学生问问题前先自己开动脑筋想出一个初步的答案来,哪怕是个错误的答案也行。 带着答案来问问题,这一下子就把原来师生间我教你学的关系转型升级为新老学者之间的平等讨论。意义和效果大不相同。同学们长此以往,就会养成勤动脑筋、善于思考的习惯,悟性就强大起来了,独立的学术人格也出来了。

李:随着语言学学科的发展,有时我们会感到很多问题已经被前人研究得相当透彻,很难再找到新的研究课题和方向。 面对这种困境,您认为我们该如何寻找新的学术增长点呢?

徐:早期的学术研究都是圈地拓荒型的,中外皆是如此。 那个年代放眼望去,学术领域满目荒原,所有现象都没有人碰过,问题一抓一大把。如果眼够疾、手够快,再配上一颗好用的大脑,几乎可以随意划个范围,写出大量的专著和文章。

但是学术发展到了一定的阶段,我们可能会愕然发现,地已经被前人圈完了,无荒可拓。 那该怎么办呢?其实,光明的出路就在眼前。我们可以在前人描写工作的基础上,借助新的理论工具,创新性地对前人分析过的问题进行重新加工和诠释。

我就多次尝试过这种研究方法。 比如疑问句、否定句和焦点句都被很多学者研究过,那里早已没有什么“荒地”了。我提出可以引入模组分析方法重新分析相关现象。结果发现,疑问和否定都没有独立的中心,相关假象都是焦点在疑问句和否定句中的实例化呈现方式而已。 相关的语法规则可以据此得以大幅度简化!

这样的学术研究跟房地产开发非常相似。早期的开发商也是圈地拓荒、四处拿地的。但是到了今天,荒地不多了,国家严守18亿亩可耕地红线,于是开发商们便不约而同地转向拆迁重建,破旧立新,照样也能做出大生意。这种层次的研究难度更大,学术含量更高,需要更高的才情、学识和洞察力,但同时也更有挑战性,更有吸引力,当然也更加激动人心。

李:在学术探讨中,我们经常会遇到各种争议和不同观点的碰撞。徐教授,请问您对学术争议在研究中的作用和意义有何看法? 我们应该如何对待学术研究中的争议和分歧呢?

徐:我常常听人说,某个学术问题仍然有争议,尚未达成一致意见,所以值得研究。 这个说法看似很有道理,实际上似是而非。我每次听到这种论调,总觉得不大对头。不错,科学研究确实要有问题意识,但是什么问题才是有价值的问题是见仁见智的。不过有一点可以肯定,科学研究跟政治管理不一样:政治管理,该坚持的原则要坚持,该退让的时候要妥协退让,力求满足不同民众相互矛盾的诉求,尽快让政策落地,把事情办成!但是科学研究就不是这个样子,它不必追求达成共识,没有共识不一定是一个问题,十有八九是因为不同人看问题的角度不同,或者对问题的理解和穿透力有别。

最好把不同的观点都放在实践的天平上由时间来检验。就如“日心说”推翻“地心说”那样,真理往往会从无人接受,到少数人发现,最后再到多数人认可。以前,地心说是大众的普遍共识,很符合大众的直觉感受(到了语言学家这里叫“语感”),但是那个共识却错得离谱,是没有价值的共识,不要也罢。 诺贝尔物理学奖华人得主丁肇中教授曾说:“科学是多数服从少数,只有极少数的人把大多数人的错误观点推翻了以后,科学才能前进。 ”所以,别人反对是很正常的,你得原谅别人的认识局限。

在日常生活中,我们中国人常讲“少说为佳,沉默是金”,宁肯不说话,也不要说错话,这在很多场合是对的。但是在学术上,情况正好相反:学术上的沉默代表的是没有思想,代表大脑一片空白。在学术问题上,我们宁肯说错话,也不要不说话。 有错误的学术观点,远胜过没有观点、没有主见。 当我们对某个问题形成自己的看法时,就会下意识地对他人在同一问题上的看法保持敏感意识和批判态度,就会有进一步思考和探究的学术好奇心,就会有冲动和激情去跟他人辩论和商榷。 假以时日,无论谁对谁错,整体的学术研究都会得到推进,个人的学术事业也会同步进步和发展。

我们不仅要自己勇于创新、敢于试错,还要善于包容别人的错误,并且鼓励别人试错! 别人发表学术文章、做学术报告,作为读者和听众,我们的重点应该放在其中的合理部分,而不是错误之处。不然,学术就不可能发展,创新就无从谈起。

李:目前,以ChatGPT和DeepSeek为代表的人工智能迅猛发展,大语言模型对语言学研究产生了前所未有的巨大挑战。近期,《语言战略研究》也围绕大语言模型发表了系列论文,引发了语言学界的热烈讨论。请问您怎么看待语言学研究与人工智能的关系呢?

徐:人类自然语言是一种客观存在的自然和社会现象。 对其本质和原理的学术探索属于科学范畴,而与自然语言相关的人工智能属于工程领域。科学本身具有独立于工程的价值,科学家可以关注但不必在意工程师是否认为其研究有直接或间接的工程价值。

语言学的理论研究成果可能对自然语言处理和人工智能有一定的启发和借鉴作用, 但也可能没有直接关联。 人工智能工程师既可以吸收语言学家的研究成果,结合其他领域的技术和方法来实现目标;也可以甩开语言学研究,独辟蹊径,不管白猫黑猫,只要能达到自己的目的就行。

人工智能的不断发展,并不会削弱语言学的研究意义和学术价值,二者虽然有关系,但属于不同领域,不存在谁取代谁的问题。我们不应该仅以语言学研究对自然语言处理的贡献来评定语言学理论的成败。就像研究生物飞翔和游动的原理对飞机和船舶制造有一定的借鉴意义, 但是没有人会仅以这种单一的应用价值来评判生物学理论的成败。 即使工程师在某个阶段为了制造出更大更快的飞机和轮船而脱离天然飞翔和游动的原理自行其是,生物学家也不会感到失落和焦虑,仍然会一如既往地研究鸟类和鱼类的生物学问题。 他们绝不会自暴自弃地说,我们还没把鸟儿飞翔的原理搞清楚呢,人家都已经把飞机火箭给造出来了,我们不等于白忙乎了嘛!

现在,语言学界有一部分学者把自己的研究领域从语言学拓展到了自然语言处理,但这并不意味着所有的语言学家都必须关注自然语言处理工程。只是碰巧有少数语言学家横跨了科学与工程两个领域。语言科学家涉足语言工程曾一度备受关注,这不足为奇。过去,就连专注于自然语言处理的工程师也认为,实现语言工程目标只能依赖语言学家对语言规则的揭示和总结。而兼做自然语言处理的语言学家,凭借自身的专业训练和学术优势,理所当然地选择了规则导向的技术路线。 但是谁也没有料到,当今的人工智能工程师居然改道而行,抛开了语言学规则,转向大数据路线,并在工程学意义上取得了很大的成功。

面对崭新的形势,跨界到自然语言处理的语言科学家其实大可不必过于纠结和焦虑。他们要么可以回归语言本体研究的老本行;要么干脆不理会当前ChatGPT们走的大数据路线,继续坚持自己原有的规则导向路线。 说不定,他们的研究成果会成为下一代人工智能的突破口和增长点。

李:刚才您从宏观上向我们分享了您的治学心得,让我深受启发。在具体的学术写作方面,我了解到您一直秉持精益求精的态度。 那么,能否请您讲解一下学术论文的写作技巧和注意事项呢?

徐:我认为,学术研究既需要创新能力,又要有工匠精神。学术写作虽然不是艺术,但也需要灵感和激情。学术论文可以写得平淡无奇、呆板枯燥,令人不堪卒读;也可以写得激情澎湃、跌宕起伏、引人入胜。这完全是事在人为。

我把论文写作分为“选题、初稿、修改、化妆”四个阶段。 好的语言学论文选题应该符合“三有”标准:有材料、有比较、有理论。“有材料”指的是选题可以让作者自然而然地圈出一片真实的语言事实,而对这些事实的观察和描写构成了整篇论文的基础。这样一来,即使你的理论分析全错了,也不至于输个精光,至少还有这些语料站得住脚,论文的基础价值不会从根本上被摧毁。“有比较”是因为现今的年轻语言学者,已经不宜仅仅做单一语言甚至单一方言的研究。 可以把某个语言或方言作为文章的支点,但是方法上一定要有跨语言、跨方言的比较。 有比较才能找到语言间的异同,才能看清个别语言和方言真正的特点。“有理论”指的是我们倡导选做“顶天立地”的题目。“立地”指的当然是立足于扎实可靠的真实语料,而“顶天”指的是能够自然而然地对接当代语言学的某个理论,并且对所使用的理论工具进行完善和发展。

选好题目,就要开始写文章的初稿。 初稿写作有两个关键的目标:一是建立自己的核心论点,或有新发现,或补充、修正、推翻前人;二是暂时把其他事务抛诸脑后,发挥出自己的最高水平,带有充分的信心和饱满的激情,一气呵成地完成初稿。 不论文章将来如何修改,但是文章的精神和灵魂在这一阶段就已经建立起来了。 一般来说,完成一篇论文的初稿不要超过一周,完成一篇博士论文或者一本书的初稿不要超过三个月。 在初稿阶段,特别应该注意的是文献阅读量的把握,原则上应该遵循“适度少量精读”的原则。 怎么判断“适度”? 那就是读的不多也不少,正好足够你建立自己的论点。 读得太少,就不足以形成自己的观点;读得太多,就会失控,容易迷失在别人观点的海洋中无法自拔,陷入“公说公有理,婆说婆有理”的困境。 核心观点形成之后,我们要尽可能把自己的创新能力和语言表达能力调整到最佳状态,并且维持这个状态直至完成初稿。

初稿完成后,接下来是修改文章。 修改文章的要领在于富有智慧地处理前人文献,与前人展开一场高水平的书面对话,引经据典、有理有据地表达自己的核心观点。 跟别人有不同意见,进行讨论和商榷时,很多新手习惯性把自己的“正确”建立在别人的“错误”之上。 其实,这样做的效果远不如承认别人的观点很好,但自己的更胜一筹。 在技术层面,要不惜笔墨,客观、准确、全面地引述对方的观点和论据,大大方方地把对方观点的优点列举出来,最好还能找到连对方自己都没有想到的优点并予以充分的肯定。 正文部分并非自说自话,对自己观点的论证和对前人观点的述评大体各占一半。 铺垫做足做够,气氛烘托到位,随后笔锋一转,一个“但是”直击对方观点的要害,再隆重推出自己的解决方案。 这样的文章才能展现对原作者的尊重和自己的公正与大气。

最后,学术论文也需要进行技术性的美化。这种美化是有选择性的,重点是让“文眼”靓丽起来!文眼包括大小标题、摘要、前言、结论、图表、附注和参考文献。 首先,题目应该简短、有力、富有新意,最好能有所渲染和升华。 题目涵盖的范围不能小于正文内容,但可以略大一些,体现一定的大气。不管是专著还是单篇论文,甚至内部小标题,都应遵循这个原则。 其次,摘要应注意以下几点:一是简明扼要地概括问题的起源;二是浓墨重彩地提炼文章的新意,适当渲染或夸张也无妨;三是切忌流水账式地罗列文章各章节的内容,这些信息读者一看目录就一目了然,不要浪费摘要的宝贵篇幅。 再次,前言的主要任务是交代背景,以便引出问题,帮助读者更好地理解文章的核心内容。另外,结论就是结论,不能叫“结语”。博士论文的结论要写一两页,交代问题的由来,研究的材料、方法、论据和结论,也可以交代一下遗留的问题。“结论”跟“摘要”会有部分重复,但是应有所扩展。“摘要”“结论”这些关键部分极为重要,需要深耕细作,字字珠玑。最后,图表、附注和参考文献看似无关紧要,实则关乎文章的命运前途。标准就一个:一丝不苟,不可有错。这方面如果出错,就像饭后在牙缝里残留的菜叶一样,特别引人注目,搞不好会给人留下不入流的外行印象。 评审人如果有这样的感觉,内容再好都没救了。

论文美化的理想境界是“看似漫不经心,实为精雕细刻”。 在文章最后的美化阶段,要逐字逐句地打磨文章,力求精简,能少一字则不多一字。如果同一个意思有不同的表述方式,要反复揣摩哪一种最精准、最有力。在语言表达上,要做到明晰流畅、全面周到、谦和自信、厚重有力!不要把修改文章的责任留给审稿人或编辑,他们是你文章的法官,不是你的写作助手。他们有决定你文章命运的权力,没有帮你修改文章的义务。你希望文章最后以什么面貌呈现出来,现在就以此标准精心打磨。

另外,文章写作的灵感并不只在书桌前才会涌现,它可能是在散步、游泳、冲凉,甚至是在坐飞机、乘火车的途中等心情轻松的状态下突然来临的。 这时候我们不妨马上放下手头的事情,写出灵感的大意,然后再慢慢修改。 激情和灵感也是稍纵即逝的啊!

李:当前,博士培养面临着诸多新的挑战和要求。在您看来,博士培养最重要的要求是什么? 您能否给博士生提供一些指导性的建议,帮助他们在学术道路上更好地成长和发展?

徐:衡量读博是否成功,有人会说无非就是按时通过资格考试、开题报告,完成毕业论文并顺利答辩,外加发表一两篇小论文。这些虽然必不可少,但却不是读博生涯中最出彩最亮丽的事项。在当今这个以创新能力论英雄的时代,读博成功的核心在于能否实现从“知识的奴隶”到“知识的主人”的转变,以及从依赖型学生心态向独立型学者心态的转化。 依赖型学生心态表现为被动依赖书本和老师,缺乏学术自信,容易被书本所束缚。 而独立型学者心态则截然不同,他们拥有独立的学术人格,善于整合、驾驭和创造知识,让知识为自己所用,而不是被知识所捆绑。 他们独立、自信、快乐地做知识的主人。

有一个简单的方法可以判断是否实现了这种转型:当你遇到一个在工具书、教科书和百度搜索中找不到答案的问题时,你首先会想到问谁? 如果答案是“问老师”,那就是典型的学生心态,认为老师理应无所不知。但实际上,老师也是昨日之学生,只是偶然成了老师。 而学者遇到问题时,首先会问自己,通过独立思考和分析来解决问题。 从学生向学者转型的最初“症状”,就是开始享受独立思考和安静沉思的过程。

博士生跟导师的关系更像是同事或战友,而不是传统意义上的师生。 导师的作用是极为有限的,有时是“锦上添花”,有时是“画龙点睛”。如果能点准,就已经很不错了。老师的能耐在于点拨学生,引导学生更好地发挥自身的潜能。 从导师的角度看,带博士生成功的标志是学生不再依赖自己的指导,至少不再需要事无巨细的指导。这与医生的角色相似:好的医生会努力让患者尽快康复,不再依赖自己。导师的作用跟中小学老师不同,中小学老师既要宏观引导,又要微观指正,帮助学生改正错误;而导师主要负责宏观引导,指出研究方向,提醒注意事项,协助学生掌握研究方法。2018年10月,美国麻省理工学院一位老教授在北京语言大学语言学系成立典礼上通过事先录像说的一段话令人印象深刻:MIT语言学的成功跟MIT全校的一个与众不同的教学方式有关,那就是MIT从来不把学生当学生,而是当成年轻的同事,教学不是像很多学校那样从一摞摞的教科书出发,而是从真实的现象和问题出发,先确定问题,然后再看有没有现成的理论工具,如果没有,那就直接进行理论创新。 这样一来他们就让自己永远处于创造理论、领导理论的位置。

如果把老师跟导游做个比较,会发现在不同的阶段,老师的作用并不相同。本科阶段,老师只是根据教科书的内容在教室里给同学们讲解名山大川;硕士阶段,导师就要带领同学们到实地游历一番,一起讨论和点评各个旅游景点;而到了博士阶段,导师只是指个方向,最多再提醒路上的注意事项,学生需要独自踏上旅程,甚至前往人迹罕至的地方探险。 导师不会全程陪同,而是等待学生探险回来后,一起探讨发现和心得,讨论下一步的探索方向。 当然,导师自己也没闲着,而是在其他方向上独自探索。 因此,有出息的博士生要勇于迈开独立行动的脚步。 至于能走多远,那全看同学们自己的胆识、格局、耐力和悟性。

李:在当前的学术环境中,青年学者面临着激烈的竞争和不断增大的晋升压力。您认为,青年学者应如何在这种压力下保持学术研究的初心和热情,同时实现个人的长远发展?

徐:在人文社会科学领域,学术成就主要体现为学术发表,这与理工农医领域有明显的不同。后者的学术成果除了学术发表以外,还可以通过技术创新和产品专利等多种方式呈现。 但在传统人文社会科学领域,学术发表是衡量学术成就的核心标准。因此,青年学者需要通过不断的学术锤炼,首先实现发表,其次追求优质发表,最终达到大量优质发表。

另外,青年学者还要注意建立自己的事业圈。这并不是简单的“搞关系”,而是跟学术界联网,积极融入学术共同体。 为此,我提出一个可操作的办法,简称为“追踪123”:“1”是指追踪一群前沿学者,长期深度关注他们的文章,跟他们建立学术联系,以文会友;“2”指追踪专业领域内的两个主流学术会议;“3”是追踪专业领域内的三个主流刊物,建议选两份中文的、一份英文的。这三份刊物上发表的文章每篇都看,并关注其他刊物的相关文章。 自己投稿也要重点投这三份刊物。

事业圈很重要。学术本来就是个共同体,要加入这个共同体,并让共同体接受个体的独特性,就必须积极交流,让同行熟悉你,接受你的观察视角和论证方式,同时也要勇于接受质疑。

我们的学术理想不应该执着于发表的文章属于几区几级,获得了什么奖项、帽子,又或者费尽心机申请到了多少社科项目经费,而应该聚焦于对学术发展本身做出了什么原创性成体系的贡献。 最后,送给青年学者一句话:为人应低调,做事敢担当,治学须霸气!

李:感谢徐教授的精彩回答! 您所倡导的学术研究中的创新能力和工匠精神给我们带来了深刻的启发!我相信,在您先进治学理念和深厚家国情怀的鼓舞下,年轻的语言学者们一定会更加目标坚定、充满激情地投身于中国语言学事业的发展,不断创造新的佳绩。

(本文是在武汉大学文学院张延成教授的动议和督促下完成的。 作者特此申谢! )

[责任编辑:唐韵萌]

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

中国社科网 | EvaHan2026古籍多模态OCR国际评测成功举行

徐惠 2026-05-15 00:01 江苏

EvaHan2026古籍OCR评测西班牙落幕,多国参赛,助力古籍数字化。

来源:中国社会科学网 | 作者:王广禄

中国社会科学网讯(记者 王广禄)当地时间5月11日,由中国古籍保护协会古籍智能开发与利用专委会指导,中国人工智能学会语言智能专委会、江苏省人工智能学会自然语言处理专委会、中国民族语言学会语言资源与计算人文专委会及中华书局古联公司协办的EvaHan2026古籍多模态OCR国际评测在西班牙马略卡岛举办的语言资源大会(LREC 2026)子会议——古代和历史语言技术研讨会(LT4HALA 2026)上圆满落幕。

  古籍数字化是传承中华文明的重要手段,如何将海量古籍图像转化为可检索、可计算的文本是关键环节。然而,由于古籍排版布局特殊、文字形态复杂(如异体字众多)、版式多样(如双行夹注),现有基于现代文档开发的OCR工具往往难以胜任,且人工录入成本高昂。因此,开展面向古籍的OCR研究,对于推动古籍的创造性转化与创新性发展具有重要意义。EvaHan自2022年以来已成功举办了四届,有力推动了古籍智能分析技术的发展。本次评测聚焦古代汉语OCR与版面分析任务,首次系统评估了大模型在真实古籍图像上的端到端识别与版面理解能力,旨在汇聚全球智慧,共同推进古籍数字化研究的进程。

  本次评测由南京农业大学信息管理学院教授王东波、副教授刘浏、南京师范大学文学院语言大数据与计算人文研究中心教授李斌、曲维光、副教授冯敏萱和许超副、南京理工大学经济管理学院教授沈思联合组织。评测历时5个月,吸引了来自中国、法国等海内外高校与科研机构的41支队伍报名,最终13支队伍完赛。在5月11日的评测研讨会上,著名计算语言学家冯志伟作了题为《中文古籍OCR的意义与方向》的特邀报告。他指出,汉字作为象形文字,字符集巨大且异体字繁多,使得中文古籍OCR难度极大。未来要将人文问题与科技赋能相结合;协同制定评测标准,推动数据资源开放共享;广泛开展文化交流,让中国古籍数字化成果与全球学者共享。

  李斌在评测总体报告中提出,本次评测数据显示,当前技术在文字识别上表现较好(版刻汉字识别率最佳综合得分达0.9736),但在版面分析上仍面临瓶颈。由于双行夹注与正文极易混淆,版面分析精度(最佳mAP为0.5941)远低于文字识别。此外,异体字与长尾罕见字仍是拉低准确率的核心因素,说明单纯扩大模型规模收益递减,领域特定的算法创新更为关键。

  经过激烈角逐,评选结果在会上揭晓。在封闭赛道中,同济大学团队凭借HistLayout-DETR等创新架构荣获文字识别(OCR)一等奖,武汉大学人工智能学院团队凭借多阶段优化策略荣获版面分析一等奖。法国国家文献学院(ENC-PSL)和巴黎高等研究实践学院(EPHE-PSL)在开放赛道中表现优异。南京大学、东北林业大学、中国人民大学及蜜度科技联合团队获二等奖,复旦大学、中山大学、法国国家文献学院团队获三等奖。

  闭幕式上,冯志伟提出,OCR技术是打破时空壁垒、让“世界记忆”复活的关键。李斌表示,未来EvaHan将继续举办更多古籍智能处理领域的国际评测,持续推动古籍的保护、传承与创新发展。

相关链接:

欢迎参赛 | EvaHan2026 古籍多模态OCR国际评测

即将开赛 | EvaHan2026 古籍多模态OCR国际评测(2号通知)

EvaHan2026古籍多模态OCR国际评测会议日程

古籍多模态多模态OCR国际评测EvaHan2026在西班牙成功举办

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

教材上新丨《数字人文引论》:全面呈现数字人文“新理念、新领域、新方法、新设施”

徐惠 2026-05-15 00:01 江苏

《数字人文引论》出版,系统阐释数字人文新理念、新领域、新方法、新设施。

转载自“数字人文专业发展联盟”

数字人文,人工智能

上架建议

《数字人文引论》

作者:李飞跃、桑海  主编

出版社:中华书局

书号:978-7-101-17674-2

出版时间:2026年4月

字数:454千字

定价:92.00

/ 内容简介 /

《数字人文引论》以“新理念、新领域、新方法、新设施”为总体框架,系统阐释数字时代人文研究的范式跃迁。全书围绕大模型与人文研究、数字史学、数字文献学等领域核心议题展开,深入探讨自然语言处理、主题模型、网络文本分析等技术方法,并对数字基础设施建设、数字媒介发展、知识范式变革及海外数字人文前沿动态进行全面论述,为理解数字时代人文研究的转型路径与未来发展提供系统而清晰的指引。

/ 作者介绍 /

主编

李飞跃,清华大学人文学院长聘教授、博士生导师,北京大学文学博士。兼任清华大学和中华书局《数字人文》、中国人民大学《数字人文研究》编委,中国索引学会数字人文专业委员会委员、中国古籍保护协会古籍整理与开发专业委员会委员等。主要从事诗歌文献、音乐文学与数字人文研究,开设“数字人文”“诗词曲经典研读”等本科课程、“诗歌文献的跨学科研究”等研究生课程。在《中国社会科学》、EMNLP等发表论文60多篇,主持国家社科基金重点项目等数项,曾获教育部高等学校科学研究优秀成果奖、清华大学教学成果奖一等奖等。

桑海,清华大学文学博士,《澳门理工学报》编辑、《数字人文》副主编。主要从事文艺理论、新媒体、数字传播研究,在《文史哲》《南京大学学报》《清华大学学报》《人民日报》等报刊发表多篇论文或评论。

作者团队

作者团队由清华大学、北京大学等十余所国内知名高校及科研机构的19位数字人文专家组成。他们在数字人文领域深耕多年,兼具理论深度与技术应用,并且长期从事一线的科研与教学工作。

(按章节先后顺序排列)

刘  石/ 清华大学人文学院

李飞跃/ 清华大学人文学院

孙茂松/ 清华大学计算机科学与技术系

孔存良/ 清华大学计算机科学与技术系

梁  晨/ 南京大学历史学院

李林芳/ 北京大学中国语言文学系

许  可/ 华东师范大学中国语言文学系

邱伟云/ 南京大学历史学院暨学衡研究院

左家莉/ 江西师范大学人工智能学院

张辰麟/ 昆明学院人文学院、教育部语言文字应用研究所

胡韧奋/ 北京师范大学国际中文教育学院数字人文系

苏  祺/ 北京大学外国语学院、北京大学人工智能研究院

赵  薇/ 中国社会科学院文学研究所

唐  宸/ 清华大学人文学院

姜文涛/浙江大学国际联合学院

饶高琦/ 北京语言大学国际中文教育研究院

李  斌/ 南京师范大学文学院语言大数据与计算人文研究中心、澳门大学人文学院

桑  海/ 澳门理工大学《澳门理工学报》编辑部

肖  爽/ 清华大学人文学院

/ 编辑推荐语 /

“清华数字人文丛书”中的第一本教材,以“四新”为框架,理论与研究成果相结合,全面阐述数字人文领域的主要研究方向。

目  录

《数字人文引论》

试  读

《数字人文引论》

立 即 购 买,继 续 阅 读 

《数字人文引论》

点击上方书封即可购买

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

预告 | 我用AI校古籍——南师大站

徐惠 2026-05-14 00:00 江苏

南师大文学院承办“我用AI校古籍”交流会,共探AI赋能古籍整理新路径。

活动预告

古籍里的文字,藏着千年文脉;AI 技术的东风,正为古老典籍拂去尘埃。由南京师范大学文学院承办的“我用AI校古籍——古籍大众智能整理计划宣讲交流会”即将开启,邀你一同见证数字技术与古典文献的双向奔赴!

讲座安排

  • 时间:2026年5月14日(周四)16:40

  • 地点:南京师范大学仙林校区学正楼208

讲座分享嘉宾

  • 抖音集团企业社会责任部 孟丽媛 经理

  • 语言学及应用语言学专业 李斌 教授

  • 中国古典文献学专业 井超 副教授

  • 中国古典文献学专业 侯婕 副教授

  • 汉语言文字学专业研究生 徐旖宸

  • 中国语言文学专业本科生 姜雨佳

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

讲座预告|袁家宏《从语音分析到模型——大脑对齐:以声调识别为例》

徐惠 2026-05-14 00:00 江苏

袁家宏南师大讲座:从语音分析到模型,以声调识别谈模型-大脑对齐。

讲座预告

南京师范大学文学院汉语言专业特邀袁家宏教授,带来题为《从语音分析到模型——大脑对齐:以声调识别为例》的专题讲座。此次讲座将谈及人工智能为语言学、神经科学与计算建模交叉研究带来的新契机,以语音识别为例,介绍Transformer模型及“预训练-微调”方法对语音识别准确率与声调信息表征能力的提升;本次报告还将介绍利用深度学习模型表征进行语音分析的方法,并从模型-大脑对齐视角,探讨声调识别过程中的学习机制、归一化策略及神经解码问题。

讲座时间及地点

  • 时间:2026年5月15日(周五)上午10:00—11:30

  • 地点:南京师范大学南大楼110教室(随园校区)

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

南京理工大学发布国内首个人文社会科学学术大语言模型

徐惠 2026-05-13 09:02 江苏

南理工沈思教授团队发布国内首个人文社科学术大模型“兰章”,已开源上线。

来源:科学技术研究院

日前,南京理工大学沈思教授团队开源发布国内首个人文社会科学领域学术大语言模型——“兰章”,标志着我校在“AI+人文社会科学”知识体系构建方面迈出重要一步。“兰章”凭借百亿词元的坚实数据基础以及两阶段深度优化训练,较好地解决了当前通用AI工具在人文社科全文本挖掘、复杂概念和论证逻辑理解方面“盲域”和“幻觉”问题,不仅可以辅助用户系统地获取和梳理海量学术资源,还能够帮助人文社会科学领域学者总体评价既有成果并敏锐发现新学术研究契机。

“兰章”研发团队历时五年,构建了总规模116亿词元的人文社会科学学术语料库,涵盖CSSCI、CNKI人文社科期刊、人大复印报刊资料、教育部人文社科获奖著作全文(1992~2025年)等中文学术资源以及SSCI、A&HCI期刊摘要及Project MUSE、Project Gutenberg(1992~2025年)等学术资源,保证了学科的均衡覆盖以及期刊与著作的深度集成。“兰章”凭借百亿级词元的坚实数据基础,较好解决了通用AI工具主要依靠论文标题、摘要等简单信息挖掘语料,难以理解完整文本中复杂概念和论证逻辑的难点痛点问题。

“兰章”研发团队选取人文社会科学全文本评测中表现较好的Qwen3-8B与Qwen3-32B基础模型进行两阶段的深度优化训练:在第一阶段,运用116亿词元的学术资料系统融入人文社科学科知识和学术表达方式,提升基础模型的的全文本理解能力;在第二阶段,团队围绕核心学术任务设计15697条训练指令,在多学科专家验证基础上反复精细调优,形成并持续提升模型的专业推理能力。经过深度优化训练,“兰章”表现显著优于多款通用模型,有效解决了跨语言环境下低频专业术语的识别盲区问题和学术文本生成中的逻辑碎片问题,图书自动分类准确率比通用模型高出30%。

团队负责人沈思教授介绍,“大模型不是代替学者思考,而是立足实际学术研究,把自主知识体系的构建延伸到模型化和计算化的层面,从工具层面为人文社会科学学术创新提供持续支持。”目前,“兰章”已上线魔搭社区试运行,15697条训练指令数据已全部开源共享。

近年来,南京理工大学高度重视哲学社会科学工作,积极推进一般社会科学与学校优势学科群的交叉融合,以数智技术赋能哲学社会科学研究。“兰章”的发布,是南京理工大学积极推进精品化特色化哲学社会科学研究,加快构建中国哲学社会科学自主知识体系进程中的又一最新成果。

“兰章”研发团队负责人沈思现为经济管理学院教授,博士生导师,主要研究方向为信息检索、大语言模型,近五年主持国家社科基金重点项目、国家社科基金后期资助项目、国家自然科学基金面上项目、江苏省哲学社会科学基金、江苏省自然科学基金等项目7项,2025年获江苏省第十八届哲学社会科学成果奖二等奖。

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

古籍多模态多模态OCR国际评测EvaHan2026在西班牙成功举办

EvaHan2026 赵雪 2026-05-12 00:13 江苏

EvaHan2026古籍多模态OCR国际评测在西班牙成功举办。

2026年5月11日,EvaHan2026古籍多模态OCR国际评测在西班牙马略卡岛成功举办。本次评测在语言资源大会LREC 2026子会议古代和历史语言技术研讨会LT4HALA 2026上举行。EvaHan2026是专注于古代汉语OCR与版面分析任务展开的技术评测比赛,基于当前学界已有的古籍图像处理研究成果,首次系统评估大模型在真实古籍图像上的端到端识别与版面理解能力。会议主办旨在与海内外高校、研究单位合作,共同推进古籍数字化研究。

PART1

古籍 OCR:

古籍数字化的关键一环

在古籍数字化加工的过程中,将海量古籍图像转化为可检索、可计算的文本是关键一环。然而,古籍文档的排版和布局与现代印刷存在显著差异,加之古籍本身的文字形态复杂(如大量异体字)、版式多样(如双行夹注、图文混排),使得基于现代文档数据开发的OCR工具在处理古籍图像时往往难以达到理想效果。仅依靠人工完成古籍信息录入,不仅耗费大量人力物力,还难以满足规模化处理的需求。因此,面向古籍的OCR研究在推动古籍的创造性转化与创新性发展方面具有重要意义。

PART2

EvaHan 系列评测:

持续助力古籍智能处理

目前,古籍OCR研究有着大量的研究和软件系统,还比较缺乏统一的评估体系和规范化的评测方法。专门针对古代汉语的系列国际技术评测EvaHan已在法国马赛(2022分词词性标注)、中国澳门(2023机器翻译)、意大利都灵(2024断句标点)及美国新墨西哥州(2025命名实体识别)成功举办了四届。2026年,EvaHan将目光转向更具挑战性的古籍多模态OCR任务,力求建立高质量的数据集和统一的评测基准,推动古籍视觉处理研究的系统化和规范化发展。

PART3

会议召开:

多方携手共办国际赛事

EvaHan2026评测由南京农业大学信息管理学院、南京师范大学语言大数据与计算人文研究中心、南京理工大学经济管理学院联合组织,由中国古籍保护协会古籍智能开发与利用专委会指导,中国人工智能学会语言智能专委会、江苏省人工智能学会自然语言处理专委会、中国民族语言学会语言资源与计算人文专委会及中华书局古联公司协办。

该评测历时5个月,从2026年1月发布训练数据,2月1日正式开赛,2月6日提交结果,2月底提交技术报告,5月11日在西班牙马略卡岛举办评测研讨会。共有来自中国、法国等海内外高校与科研机构的41支队伍报名,13支队伍完赛。

会议由南京师范大学李斌教授主持,南京师范大学冯敏萱、许超副教授,南京农业大学王东波教授、刘浏副教授,南京理工大学沈思副教授以及各参赛队成员等来自海内外的四十多位学者线上线下出席会议。

会议邀请著名计算语言学家冯志伟教授做了“The Significance and Direction of Chinese Ancient Book OCR”的特邀报告。报告指出,古籍是、中华文明的载体,也是人类文明的珍贵组成部分。与西方字符特征不同,汉字作为象形文字,字符集巨大且存在大量异体字,这使得中文古籍OCR的难度远超其他同类古籍。冯教授对古籍OCR的未来提出了三点期望。第一,将人文问题与科技赋能相结合;第二,协同制定评测标准,推动数据资源开放共享;第三,广泛开展文化交流,中国古籍数字化成果与全球学者共享。

李斌教授做了“Overview of EvaHan2026”的评测总体情况报告,介绍了构建本次评测数据集的历程,总结了本次评测反映出的OCR特点

(1)在文字识别任务(Task A和C)中,版刻汉字识别率较高(最佳综合得分达0.9736),而手写汉字因连笔和俗字识别率相对较低(最佳综合得分0.9571);

(2)在版面分析任务(Task B)中,双行夹注与正文极易混淆,导致版面分析精度(最佳mAP为0.5941)远低于文字识别,是当前最大的技术瓶颈;

(3)异体字与长尾罕见字是拉低OCR准确率的核心因素,且开放赛道的表现并未显著优于封闭赛道,说明单纯扩大模型和数据规模收益递减,领域特定的算法创新更为关键。

随后,参赛队代表分别做了技术报告,围绕多模态大模型微调、版面目标检测、异体字后处理等展开交流与讨论。

【部分参赛队发言截图】

PART4

荣耀揭晓:

获奖团队名单公布

经过综合评比,在封闭赛道中,同济大学团队凭借HistLayout-DETR等创新架构获得文字识别(OCR)一等奖;武汉大学人工智能学院团队凭借多阶段优化策略(SFT+DPO+GRPO)获得版面分析一等奖。法国国家文献学院(ENC-PSL)和巴黎高等研究实践学院(EPHE-PSL)在开放赛道中表现优异。著名计算语言学家冯志伟教授、意大利圣心大学Rachele Sprugnoli教授、南京师范大学李斌教授为获奖团队颁奖。

【部分获奖队截图】

 一等奖(文字识别任务) 

TJU Team Tongji University

(同济大学)

 一等奖(版面分析任务) 

WHU-SAI Team School of Artificial Intelligence, Wuhan University

(武汉大学人工智能学院)

 二等奖 

NJU Team

(Nanjing University,南京大学)

NEFU Team

(Northeast Forestry University,东北林业大学)

RUC-MIDU Team

Renmin University of China; Midu Technology,中国人民大学;蜜度科技)

 三等奖 

FDU Team

(Fudan University,复旦大学)

SYSU Team

(Sun Yat-sen University,中山大学)

ENC-PSL Team

(École nationale des chartes, PSL University,法国国家文献学院)

PART5

圆满闭幕:

持续推动古籍保护传承创新

【部分参会人员合影】

闭幕式上,冯志伟教授指出,本届评测有效提升了古籍OCR的效果,OCR技术是打破时空壁垒、让“世界记忆”复活的关键。李斌教授对各参赛队表示了感谢,未来EvaHan还将继续举办更多古籍智能处理领域的国际评测,推动古籍的保护和传承创新。会议在热烈的掌声中结束。

= END =

相关链接:

欢迎参赛 | EvaHan2026 古籍多模态OCR国际评测

即将开赛 | EvaHan2026 古籍多模态OCR国际评测(2号通知)

EvaHan2026古籍多模态OCR国际评测会议日程

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

报名答疑 | 第四届语料库与数字人文暑期学院(3号通知)

戴俊阳 徐惠 2026-05-12 00:13 江苏

报名收到数十封邮件和留言,统一答复。欢迎继续报名:)

第四届语料库与

数字人文暑期学院

— 3号通知 —

CDHSUMMER2026

随着大数据和人工智能技术的发展,语言、历史、文学等人文研究都越来越多地引入了计算技术。人文学科与计算技术的交叉研究,关键在于基于语料库的人文大数据构建和大语言模型的应用。

为推动计算语言学与数字人文的学科建设与人才培养,南京师范大学联合北师港浸大、澳门大学、香港科技大学、南京农业大学五校,于2026年7月25日-8月4日(共11天),通过线上线下结合的形式举办语料库与数字人文暑期学院,包括讲习班实训和讲座论坛两大部分。

本届“语料库与数字人文暑期学院”报名通道已开放,参见文末2号通知。现就报名者的相关问题予以解答,欢迎继续报名!

1.参与线上培训的话,直播内容是否有回放呢?

答:直播内容无回放,但各班均配备助教团予以答疑,同时每日也有固定答疑时段。

2.关于数字人文暑期学院的报名中所提到的推荐信材料。请问推荐信是否需要推荐人的署名,署名为电子签名是否符合要求?以及对于推荐信是否有格式上的具体规范。

答:无统一格式,最好有电子签名。

3.请问如果有意参与咱们的讲座和论坛答疑,但水平不够参与平行班讲习班课程,这种情况怎么报名呢?线上或线下都可以。

答:关于您提到的情况,我们理解您对基础的担心。需要向您说明的是,本次暑期学院的专家讲座和圆桌论坛等环节,主要是为平行讲习班正式学员设计的,暂时不单独对外开放旁听。因此,如果希望参加讲座和论坛,需要先正式报名并选择一个平行班方向。目前会务组正研讨旁听讲座单独录取的方案。请大家先正常报名。

4.请问第三届语料库与数字人文暑期学院后期是否会发放盖了章的红头文件呢?后期回单位需要提供文件证明才能报销交通费、住宿费。

答:会后根据需要,提供邀请函。

5.青年教师报名也需要附上导师推荐信吗?

答:不一定,根据自身情况。

6.想参与线上培训是否有特定条件?还是报名时进行说明就可以呢?如果有,请问需要准备什么?

答:在报名时选取相应班级即可,准备材料与线下一致。

7.我是编程小白,可以报大模型班吗?

答:大模型班建议PYTHON初级以上的基础,对循环、函数、类有基本操作能力。每个班都需要自备笔记本电脑听课哦。

8.前期申请表单填写错误,是否允许允许我通过重新扫码填写的方式,补交完整的申请材料?

答:可以。

9.课程全免费吗?

答:不收学费。餐饮、交通、住宿等费用自理。住宿最好提前自行预订,餐饮方面有校内餐厅(自费)。

10.暑期学院是否为参训学员提供官方培训邀请函?

答:录取结果会以邮件形式通知。

11.报名链接中要求提交证书,想问下是需要提交什么类型的证书?

答:类型无严格要求。能体现个人能力或与本期学院有关即可。

12.报名链接中要求提交推荐信,目前我已毕业,是高校青年教师,是需要联系导师写推荐信吗?还是可以不提交推荐信?

答:可以不提交。

13.问卷的最后一项个人简历栏。括号里提到个人简历、研究基础、学习目标、证书和推荐信。请问推荐信有规定的格式吗?需要提供推荐人的哪些信息?

答:推荐信无规定格式,有无推荐信均可。

14. 线上和线下学习的主要区别是什么?

答:线下可以和专家、同学面对面交流、研讨。除了讲座和课程,不少环节也是没有直播的。

15.留学生可以报名吗?到底是12号还是15号截止?

答: 前几届已经录取了多位海外的留学生和外国学生,主要看语言水平,要达到HSK6级以上,听说读写没有问题才好。注意,是5月15日晚上12点截止。原计划是12号,应广大报名者要求暂缓了3日。

16.研究计划是什么?我没有计划怎么办?

答: 研究计划是自己想做出什么样的系统,想法很重要,可以参考去年暑校的近200个系统。当然,授课中也会给大家一些有趣的选题。

17.会场在哪里?我多喊一些同学一起报名?是否可以打折?

答: 会场在南师大随园校区文学院,在市区。还请仔细读一下二号通知,本讲习班免费,交通食宿自理:)待录取后大家可以自行预订周边酒店。

特邀讲者更新

 特邀讲座和论坛嘉宾 

新疆大学 冯志伟教授

澳门大学 袁毓林教授

香港理工大学 黄居仁教授

中国社科院民族所 龙从军研究员

中国社科院语言所 张永伟研究员

北京大学 苏祺研究员

北京大学 朱本军研究员

华中科技大学 唐旭日教授

同济大学 王昊奋教授

南京大学 黄书剑教授

南京农业大学 王东波教授

南京师范大学 李斌教授

北京师范大学 胡韧奋副教授

中国人民大学 卢达威副教授

北京语言大学 饶高琦副研究员

华中师范大学 沈威副教授

中国传媒大学 王璐璐副教授

江南大学 王萌副教授

教育部语言文字应用研究所 李慧助理研究员

(持续邀约中)

扫码关注公众号,

获取报名通道、课程更新、嘉宾资讯等更多内容

相关链接:

第四届语料库与数字人文暑期学院(1号通知)

报名开启 | 第四届语料库与数字人文暑期学院(2号通知)

第三届语料库与数字人文暑期学院顺利闭幕

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

计算语言学本科专业详解——在语言与人工智能之间,理解机器如何处理人类语言

徐惠 2026-05-11 08:50 江苏

推文详解新增计算语言学专业,含内涵、课程、就业及报考适配性。

转载自“应用语言学研习与区域国别学”

计算语言学本科专业详解 | 在语言与人工智能之间,理解机器如何处理人类语言

能够理解语言,也能够理解计算,正在成为一种新的专业能力。

当语言成为人工智能最核心的入口

今年新增本科专业中,计算语言学很值得关注。

坦率说,在今年这些新专业里,我个人很喜欢计算语言学这个专业。因为计算语言学,触及的是一个更基础的问题——人类怎样用语言理解世界,机器又如何通过语言接近人的知识、经验、情感和判断。

过去谈语言学,人们更多想到语音、词汇、句法、语义、语用、篇章、语言演变和语言习得。过去谈计算机和人工智能,人们更多想到编程、算法、数据、模型和系统。今天,这两条线正在深度交汇。机器翻译、语音识别、智能客服、自动摘要、情感分析、大语言模型、跨语言检索、智能教育、内容审核、文本挖掘,都离不开语言学和计算技术的共同支撑。

计算语言学正是在这样的背景中进入本科专业体系。它面向的核心问题很清楚:人类语言怎样用计算方式表达、分析、处理和生成?机器如何理解词语、句子、语篇和语境?大模型为什么能生成语言,又为什么会误解语义、遗漏语境、产生偏差?多语种、多模态、跨文化的语言数据,怎样转化为智能系统能够处理的对象?

华东师范大学作为首批探索高校之一,将计算语言学设在外语学院,归入文学门类下的外国语言文学类,修业年限四年。首批培养方案强调,这一专业旨在培养兼具语言学理论基础和计算机技术能力的人才,使学生能够运用计算工具开展语言分析、处理与生成,服务自然语言处理、人工智能和语言学研究等方向。

计算语言学的出现,说明语言类专业正在进入人工智能时代。语言不再只存在于书面文本、课堂表达和翻译实践中,也存在于搜索引擎、社交媒体、智能终端、语音助手、教育平台、大模型和数字社会的海量数据里。能够理解语言,也能够理解计算,正在成为一种新的专业能力。

图片

一、计算语言学专业是什么样的专业呢

计算语言学,是语言学、计算机科学、人工智能、数据科学交叉形成的新专业。它以人类语言为研究对象,以计算模型和数据方法为工具,研究语言的结构、意义、使用和生成规律,也研究机器如何处理语言。

这个专业的基础仍然是语言。学生要学习语言学概论、句法形态学、语音学、语义学、语用学、篇章语言学、语料库语言学等内容,理解人类语言的内部结构和实际使用方式。语言并不只是字符序列。一个词有词义和语境,一个句子有结构和关系,一段话有衔接、指代、立场和意图,不同语言之间还存在文化和表达习惯差异。

这个专业也必须进入计算。学生要学习人工智能导论、Python实验课、编程与数据处理、机器学习基础、自然语言处理概论、文本挖掘与分析、深度学习与语言处理、大语言模型与应用等内容。语言数据要进入机器处理,就需要编码、标注、建模、训练、评估和应用。

计算语言学的独特之处,在于它不把语言当成普通数据,也不把技术当成简单工具。它要求学生真正理解语言现象,再用计算方法处理语言问题。

比如,机器翻译为什么会把一句话译得通顺却不准确?语音识别为什么在方言、噪声和口音面前容易出错?智能客服为什么经常回答得像模板?大语言模型为什么能生成连贯文字,却可能在事实和推理上出现问题?这些问题都不能只靠扩大模型规模解决,也不能只靠传统语言分析回答。它们需要语言学、数据、算法和应用场景共同进入。

计算语言学培养的,是能够在语言和智能系统之间工作的人。学生要能分析语言,也要能处理数据;要能理解语义,也要能使用模型;要能看懂语言现象,也要能把语言问题转化为计算问题。

二、为什么设立计算语言学专业

计算语言学专业的设立,来自人工智能、大数据和语言智能快速发展的共同推动。

自然语言处理已经成为人工智能最重要的方向之一。搜索引擎需要理解用户问题,智能客服需要理解对话意图,机器翻译需要完成跨语言转换,教育平台需要分析学生表达,社交媒体需要处理海量文本,智能终端需要识别语音,大模型需要在语言中组织知识和生成回答。首批产业调研指出,全球科技企业持续投入智能语言技术,语音助手、机器翻译、情感分析、搜索优化、智能交互等领域都依赖自然语言处理技术。

国内产业应用也非常丰富。智能客服、跨境电商、多语言翻译、智慧医疗语音转录、金融文本挖掘、法律合同审查、教育测评和语言学习应用,都需要计算语言学人才。产业调研中列出的主要方向包括自然语言处理与人工智能、数据科学与大数据分析、教育与语言技术、语音技术与智能语音服务、语言学研究与学术机构、翻译与本地化服务等。

语言技术的发展还带来了新的社会需求。全球化背景下,多语种处理、本地化服务、跨文化沟通和国际传播都离不开语言智能。国内数字经济发展中,中文信息处理、低资源语言处理、社交媒体文本分析、智能教育工具、语音交互和多模态语言处理,也都需要长期人才支撑。

更深层的变化在于,人工智能越发展,越需要语言学提供基础理解。大模型能处理海量文本,但它仍然会遇到语义歧义、语境缺失、跨语言偏差、虚假生成、话语立场和文化差异等问题。语言学对语音、词汇、句法、语义、语用、篇章和社会语境的研究,能帮助人工智能更好地理解人类语言的复杂性。

首批专业论证把计算语言学放在全球化与人工智能发展的双重需求中理解,认为语言学与技术结合日益紧密,自然语言处理技术促进多语言交流,语言学多层次研究为人工智能、认知科学、教育科技提供理论支撑,培养具备语言学与技术双重能力的人才已经成为现实需要。

计算语言学的设置,正是为了回应这种需求。它让语言学进入智能时代,也让人工智能重新面对语言本身。

三、计算语言学专业到底研究什么

计算语言学可以从五个关键词进入:语言、语料、模型、应用、伦理。

第一,语言。语言是这个专业的根基。学生要理解声音怎样构成语音,词语怎样组成句子,句子怎样形成意义,语篇怎样展开,人在不同情境中怎样使用语言。语音学、句法形态学、语义学、语用学、篇章语言学和话语分析,都是理解语言的基础。没有语言学训练,机器处理文本时很容易只看到表层形式。

第二,语料。计算语言学离不开语料。语料库语言学、文本挖掘与分析、社交媒体与网络文本分析,都需要学生处理大规模文本、语音和多模态数据。语言数据要经过收集、清洗、标注、分类和建模。不同类型语料,反映不同语言使用场景。文学文本、新闻文本、课堂语料、社交媒体文本、医学文本、法律文本和企业客服文本,分析方法都不完全相同。

第三,模型。自然语言处理、机器学习、深度学习、大语言模型,是计算语言学的重要工具。学生要学习如何把语言转化为机器能够处理的表示,如何进行词向量、句向量、语言模型训练,如何完成文本分类、情感分析、信息抽取、机器翻译、问答系统和语言生成。首批培养方案中的课程包含机器学习基础、自然语言处理概论、深度学习与语言处理、大语言模型与应用,正是围绕这条主线展开。

第四,应用。计算语言学最终会进入真实应用。机器翻译、智能语音、自动摘要、舆情分析、智能教育、语音评测、内容审核、本地化服务、智能文献检索、跨语言搜索和人机对话,都需要计算语言学支撑。专业课程中的机器翻译技术及应用、智能语音技术、智能外语教育、人工智能与文献检索、多模态语言处理等,体现出很强的应用面向。

第五,伦理。语言技术进入社会以后,会影响信息传播、教育评价、内容推荐、跨文化沟通和社会判断。模型可能带有偏见,自动翻译可能误导交流,文本分析可能侵犯隐私,智能写作可能改变学术和教育秩序。计算语言学人才不能只追求技术效果,也要理解语言数据背后的人、文化、权利和责任。

这五个关键词共同说明,计算语言学研究的不是怎样让机器会说话这么简单。它面对的是语言如何被计算、如何被理解、如何被生成、如何被应用,也包括技术进入社会以后怎样影响人的表达和交往。

四、它和语言智能、外语专业、人工智能、数据科学有什么区别?

计算语言学和语言智能关系很近,但专业重心有所不同。

语言智能更偏向语言技术在跨语言沟通、智能翻译、外语教育、国际传播和数字语言服务中的综合应用。计算语言学更强调语言学理论、计算模型和自然语言处理方法之间的关系。简单说,语言智能更重应用场景和语言服务能力,计算语言学更重语言机制和计算方法的结合。

它和传统外语专业也不同。外语专业重视语言能力、文学文化、翻译实践和跨文化交流。计算语言学仍然需要语言能力和跨文化理解,但它进一步要求学生掌握编程、统计、机器学习、自然语言处理和语料分析。外语专业更强调用语言,计算语言学更强调分析语言、建模语言、处理语言

它和人工智能专业也不同。人工智能专业通常更重视算法、模型、计算机视觉、机器学习、智能系统和工程实现。计算语言学虽然使用AI技术,却把研究对象集中在语言,强调语言结构、语义理解、语用情境、语料建设和多语言处理。没有语言学基础,AI模型很容易把语言简化成普通数据。

它和数据科学也不同。数据科学处理各种类型数据,包括金融、医疗、工业、社交、图像和文本。计算语言学聚焦语言数据,尤其关注文本、语音、语篇和跨语言信息。语言数据具有结构性、语境性和文化性,不能完全套用一般数据分析方式。

这些区别很关键。计算语言学不是外语专业加几门编程课,也不是人工智能专业加一点语言案例。它的专业价值,正在于把语言学和计算方法放在同一套知识结构中,让学生能够真正理解语言技术背后的语言问题。

五、首批建设高校的探索,为什么值得关注

计算语言学作为新增本科专业,首批建设高校的探索具有参考价值。

华东师范大学建设这一专业,有自己的学科基础。学校是教育部直属重点大学,长期具有师范教育、外语教育、语言学研究、教育技术、数据科学和人工智能等多方面积累。计算语言学设在外语学院,体现出一个鲜明取向:从外国语言文学和语言学基础出发,向自然语言处理、智能外语教育、机器翻译、大语言模型和语言数据分析延伸。

首批方案中,课程体系同时覆盖语言学概论、句法形态学、语音学、语义学、语用学、篇章语言学、语料库语言学,也覆盖人工智能导论、Python实验课、自然语言处理概论、机器学习基础、文本挖掘与分析、深度学习与语言处理、大语言模型与应用。这种安排说明,专业没有离开语言学底座,也没有停留在传统语言学习路径里。

华东师范大学的探索也体现出师范大学和外语学院的特色。方案中特别设置智能外语教育、第二外语指定选修、国际交流项目和多语种培养路径,说明计算语言学可以服务智能教育、语言学习技术和跨文化交流。学校还配置了语言交互、视听训练、同声传译、沉浸式虚拟演播、眼动实验等设备,并建设实践教学基地,为语言数据采集、语言实验和技术应用提供条件。

这里也要把关系说清楚。计算语言学是国家新增本科专业,不是某一所高校的专属方向。首批高校的价值,在于提供较早的培养样态。华东师范大学的方案让人看到,计算语言学可以依托外语学科和语言学基础,接入人工智能、自然语言处理和智能教育。未来更多高校建设这一专业时,可能会形成不同路径。

外语类高校可能更强调多语种处理、机器翻译和本地化;综合性大学可能更强调语言学、计算机和认知科学交叉;理工类高校可能更强调自然语言处理、大模型和工程实现;师范类高校可能更强调智能外语教育、语言测评和学习分析。不同高校从不同基础进入,计算语言学专业才会形成更丰富的发展空间。

六、计算语言学专业主要学什么

从首批培养方案看,计算语言学课程体系有很清楚的交叉特征。本科总学分为146学分,其中公共必修课程38学分,通识教育课程8学分,学科基础课程21学分,专业必修课程41学分,专业选修课程38学分。实践课程共44学分,占总学分30.13%

第一类是语言学基础课程。

语言学概论、句法形态学、语音学、语义学、语用学、篇章语言学、语料库语言学、语言学与语言分析,是学生理解人类语言的基础。它们帮助学生进入语言结构、语言意义、语言使用和语言数据分析。

第二类是计算和AI基础课程。

人工智能导论、Python实验课、编程与数据处理、机器学习基础、概率论、数理统计等课程,构成计算训练的底座。学生要能处理数据、写程序、理解模型,也要能判断算法结果。

第三类是自然语言处理课程。

计算语言学基础、自然语言处理概论、文本挖掘与分析、深度学习与语言处理、大语言模型与应用,是专业技术主线。它们帮助学生理解语言模型、文本分析、语义表示、语言生成、机器理解和大模型应用。

第四类是语音和多模态课程。

智能语音技术、语音学、多模态语言处理等课程,让学生进入语音识别、语音分析、语音交互和多模态信息处理方向。语言在现实中并不只有文字,还有声音、图像、表情、场景和身体动作。

第五类是机器翻译与智能教育课程。

机器翻译技术及应用、智能外语教育等课程,体现了语言技术在教育和跨语言交流中的应用。机器翻译不只是技术问题,也涉及语义、文化、语篇、风格和译后编辑;智能外语教育则连接语言学习、教育技术和数据分析。

第六类是统计、数字人文和专业拓展课程。

多元统计分析、统计软件、抽样调查、非参数统计、数据挖掘、人工智能与认知语言学、社交媒体与网络文本分析、人工智能与文献检索、语篇分析、话语分析、语言的历史等课程,为学生提供更宽的研究和应用方向。

第七类是第二外语和国际交流。

首批方案要求专业选修课中包含第二外语指定选修16学分,提供德语、法语、日语、俄语、西班牙语等路径。方案还提到学生可在第四至第七学期参加与德国、法国、瑞士等高校的交流项目。这说明计算语言学并没有放弃多语种能力,反而把多语种能力视为处理跨语言问题的重要基础。

这套课程体系显示,计算语言学学习强度不低。学生要学语言学,也要学统计和编程;要理解语义和篇章,也要掌握机器学习和大模型;要保持外语和多语种能力,也要进入数据和算法。

七、毕业生未来能做什么?

计算语言学的就业方向面向的是语言技术、人工智能、数据分析和跨语言服务中的长期需求,未来可能去向很宽。

第一类是自然语言处理和人工智能研发。

毕业生可以进入互联网企业、AI公司、云计算平台、大模型团队、智能硬件企业,从事自然语言处理工程、文本分类、信息抽取、语义检索、智能问答、对话系统、自动摘要、内容生成、模型评测等工作。

第二类是机器翻译和本地化服务。

跨境电商、国际传播、游戏出海、软件国际化、影视字幕、法律与金融文本翻译,都需要机器翻译、术语库、翻译记忆库、译后编辑和多语种语料建设。计算语言学人才可以在翻译技术、本地化项目管理、语言质量评估等方向发展。

第三类是语音技术和智能交互。

语音识别、语音合成、语音评测、智能音箱、车载语音助手、数字人、智能客服和虚拟助手,都需要语音和语言处理人才。具备语音学、智能语音技术和NLP能力的毕业生,可以进入语音交互和智能终端领域。

第四类是数据科学和文本挖掘。

社交媒体分析、舆情监测、客户反馈分析、市场趋势识别、金融文本挖掘、法律文书分析、医学文本处理,都需要语言数据分析能力。毕业生可以从事文本数据分析、语言数据产品、数据标注体系设计、语义资源建设等工作。

第五类是教育科技和智能外语教育。

智能作文批改、口语自动评测、个性化语言学习、学习行为分析、智能辅导系统、语言能力测评,都需要计算语言学支撑。首批培养方案中设置智能外语教育课程,也说明这一方向具有专业基础。

第六类是内容平台和数字治理。

短视频、新闻资讯、社交平台、问答社区和搜索平台,都需要内容理解、内容审核、风险识别、推荐语义分析和多语言内容治理。计算语言学人才可以参与内容安全、信息质量评估、话题识别和平台治理相关工作。

第七类是高校、科研院所和继续深造。

学生可以继续攻读语言学、计算语言学、自然语言处理、人工智能、认知科学、教育技术、数据科学、数字人文、翻译学等方向研究生。首批方案中年度招生20人,预计升学5人,显示出这一专业兼具就业和深造方向。

第八类是产品和行业应用。

计算语言学人才不只做研发,也可进入AI产品经理、语言技术顾问、行业解决方案、智能教育产品、语音交互产品、跨境业务语言技术支持等岗位。产业调研也提到,计算语言学人才在产品应用和商业化推广中可以发挥作用,例如AI产品经理、技术顾问和市场拓展等方向。

计算语言学的就业前景,不能简单理解成去做AI”。它的真正价值在于语言和技术的结合。只懂语言,不懂计算,难以进入智能语言系统;只懂算法,不懂语言,容易忽视语义、语境和文化差异。真正有竞争力的毕业生,应当能够把语言分析能力、编程能力、模型能力和应用场景理解结合起来。

八、什么样的学生适合报考

计算语言学适合对语言、人工智能、编程和数据分析都有兴趣的学生。

第一,学生要真正关心语言。语音、句法、语义、语用、篇章、翻译、多语种表达,这些都不是边缘内容,而是专业底座。只因为AI热门而选择,后续学习可能会感到吃力。

第二,学生要愿意学习编程和统计。Python、数据处理、概率论、数理统计、机器学习、深度学习都在课程中。对技术训练完全排斥的学生,不太适合这个专业。

第三,学生要有外语和跨文化兴趣。计算语言学虽然接入AI,但仍属于外国语言文学类。多语种处理、国际交流、翻译技术、本地化服务,都需要语言能力和跨文化理解。

第四,学生要能接受跨学科学习。这个专业横跨语言学、计算机、人工智能、统计学、教育技术和认知科学。学习过程中会频繁在不同学科语言之间切换。

第五,学生要有耐心处理数据。语料清洗、文本标注、模型训练、错误分析、译文评估、语音数据处理都很细致。计算语言学并不只是和大模型聊天,也包括大量基础工作。

第六,学生要有伦理意识。语言技术会影响教育、传播、翻译、社交平台和社会判断。数据隐私、算法偏见、虚假生成、文化误读,都需要认真对待。

如果学生喜欢语言,也愿意学习技术;关心人如何表达,也关心机器如何理解;既能读文本,也愿意写代码,计算语言学会是一个非常值得关注的新专业。

九、人工智能时代,语言学正在获得新的位置

计算语言学进入本科专业体系,是语言类专业发展中的一个重要变化。

人工智能越发展,语言问题越重要。机器要搜索、翻译、问答、写作、对话、摘要、评价和解释,都绕不开语言。语言也不只是工具,它承载知识、经验、情绪、立场、文化和社会关系。智能系统如果不能更好地理解语言,就很难真正理解人类世界。

这也是我喜欢计算语言学的原因。它把我们带回一个很朴素、也很深的问题:人说出一句话,究竟包含了什么?一个模型生成一段文字,又究竟理解了多少?在人工智能越来越像会说话的今天,重新理解语言,可能比单纯追赶技术更重要。

计算语言学的价值,正在于把语言学的细致分析和计算技术的处理能力结合起来。它让学生从语音、词汇、句法、语义、语用和篇章出发,进入自然语言处理、机器学习、大语言模型、智能语音、机器翻译和语言数据分析。它不把语言学留在传统课堂里,也不把人工智能变成脱离语言规律的技术训练。

华东师范大学作为首批建设高校之一,提供了一个有外语学院特色的培养样本。它从语言学和外语教育基础出发,接入自然语言处理、智能外语教育、机器翻译和大语言模型,显示出计算语言学在师范大学和综合性大学中的一种建设路径。未来,更多高校会从不同基础继续探索,计算语言学也会形成更加丰富的专业样态。

对于考生来说,计算语言学不是传统外语专业的改名,也不是人工智能专业的语言方向。它要求学生同时进入语言和计算,同时理解文本和模型,同时保持人文敏感和技术能力。

在大模型和智能系统快速发展的时代,语言仍然是理解世界、连接人群、组织知识的重要通道。计算语言学,就是在这条通道上培养新型人才的本科专业。

数据声明

本文分析完全依据各高校公开公布数据,不含预测推断。

读书使人进步,无暇也要读书

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

讲座预告|简锦松《古今州县城传承与变迁的数字化定位——古驿路文学数字化视角下的中国古城研究法之一》

徐惠 2026-05-10 13:35 江苏

简锦松教授南大开讲,谈州县城数字化定位与古驿路文学研究。

讲座预告

南京大学中华文明数智创新实验室等特邀简锦松教授,带来题为《古今州县城传承与变迁的数字化定位——古驿路文学数字化视角下的中国古城研究法之一》的专题讲座。此次讲座将谈及古代州县城数字化定位、古驿路数字化与文学艺术研究的结合,以GPS现地研究法解读古城定位实例;本次报告还将分享如何通过现地研究法,为古城进行精准定位,推动文学、历史与数字人文的跨学科研究。

讲座安排

  • 时间:2026年5月11日(周一)19:00—21:00

  • 地点:南京大学鼓楼校区建良楼南雍讲堂

  • 主持人:鲁安东(南京大学建筑与城市规划学院教授、副院长,中华文明数智创新实验室副主任)

主讲人简介

台湾中山大学特聘教授、研究员,上海大学文学院自强教授。曾在清华大学、中南民族大学、韩国外国语大学讲学。

专业为古典诗文创作、研究及吟唱。1999 年确立现地研究学术专名,以 GPS 技术开创数字人文研究的新途径,著有《明代中期文学批评研究》《杜甫夔州诗现地研究》《唐诗现地研究》《亲身实见—杜甫诗与现地学》《山川为证—东亚古典文学现地研究举隅》等书,诗集有《锦松诗稿》正续集。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

安波 龙从军 | AI时代中国语言知识库构建:理论与方法

云南师范大学学报 2026-05-09 11:10 江苏

分享一篇文章

云南师范大学学报哲社版: 安波 龙从军 | AI时代中国语言知识库构建:理论与方法

人工智能快速发展,使语言研究从依赖少量材料与经验判断,转向需要在海量真实语料中进行系统检验与归纳。相比“只把材料收集起来”的传统语料库,文章主张建设面向汉语及我国少数民族语言的“中国语言知识库”。

安波,男,中国社会科学院副研究员,博士,中国社会科学院大学硕士生导师,研究方向为自然语言处理。

龙从军,男,中国社会科学院研究员,中国社会科学院大学教授,博士,博士生导师,研究方向为计算语言学、语料库语言学、数字人文。

一、引言

进入人工智能时代,语言研究正在经历明显的转向。随着大规模语言模型应用的日益广泛,依赖少量材料与研究者直觉的传统路径,越来越多地让位于基于海量语言材料的检验、比对与归纳。近年来教育主管部门启动国家关键语料库建设计划,提出到2027年基本建成国家语言文字大数据中心和战略资源库,希望更充分释放语言数据在经济社会发展与人工智能应用中的价值。

不过,从目前情况看,语言资源建设仍主要停留在语料库层面,即以尽可能多地汇集原始文本与语音材料为主,供研究与模型训练使用。仅有语料库,尚不足以回应人工智能时代对语言知识的更高要求:其一,大模型的学习基础仍以英语等资源丰富语言为主,资源不足语言在数字世界中更容易被忽视。其二,缺少对语言现象更细致、更加一致的标注与整理,使得材料难以上升为可反复核验、可系统利用的知识,也就难以支撑对语言规律的深入把握。还有研究显示,网络知识资源对资源不足语言的覆盖不够,会进一步加剧这些语言在数字时代的弱势处境。大语言模型对语言学提出了严峻挑战,但同时也是语言学发展一个千载难逢的机会。

因此,有必要在汇集材料的基础上建设面向人工智能应用的中国语言知识库,在汇集材料的基础上,系统整合汉语及我国少数民族语言的文本、录音与影像等资料,并通过严格的标注、编目与关联,把分散的语言材料整理为便于检索、比对与追溯的知识资源,从而推动语言资源的深度开发。此项工作不仅具有学术意义,可为语言学理论研究提供更坚实的数据支撑,而且具有现实价值,既能服务于濒危语言与方言的记录和保护,又能为资源不足语言的智能处理提供更可靠的训练材料与评测依据,推动技术发展走向更充分的多样性与包容性。下文将在引言提出问题的基础上,依次讨论相关概念界定、总体设计、建设方法、理论依据、应用前景以及治理与伦理等议题。

二、学理基础与范围界定

建设面向人工智能时代的中国语言知识库,首先需要厘清学理立场与讨论范围。语言研究的许多争论,往往并不出在概念本身,而出在材料是否充分、语境是否清楚、结论能否复核。尤其在大数据与自动化处理日益普及的今天,更需要强调一种朴素而关键的学术态度,任何关于语言的概括,都应以可核验的材料为前提,并尽可能保留回到原始语境的路径。本文提出知识库构想,正是希望在材料积累与知识归纳之间建立更稳固的连接,使语言研究能够在更丰富的证据基础上展开,也使相关成果能够经得起反复检验与持续更新。

这一立场与语言学中重视材料与语境的传统是一致的。无论是对汉语方言与少数民族语言的记录整理,还是对历时文献的训诂考释,学术工作都离不开对真实话语的保存、转写、译注与解释。材料越扎实,研究越能避免凭印象下结论;语境越清楚,解释越不易滑向抽象化的空谈。与此同时,语料研究的发展也表明,大规模、成系统的语言材料能够揭示许多基于少量例证难以发现的规律,并为既有理论提供更严格的检验条件。

本文同样强调多语言并置的视角。中国语言生活的基本事实,是多样性与多层次并存,既有以汉语为主体的普通话与各地方言土语,也有数量可观、类型各异的少数民族语言;既有当代活态语言,也有承载历史演变信息的文献材料。若只以单一语言或单一体裁作为默认对象,许多对比性的线索就会被遮蔽,许多看似普遍的结论也可能只是某一范围内的局部现象。因此,本文所说的中国语言,取其广义,指中国境内使用的各类语言资源,包括现代汉语及其方言土语,也包括藏语、维吾尔语、蒙古语、壮语、苗语等少数民族语言及其地区变体;同时兼顾历史阶段材料与当代材料。这样界定,是为了让知识库建设从一开始就具备兼容多样、便于对比的格局,使汉语研究与少数民族语言研究能够在同一平台上共享方法与资源,并在必要时实现互证与互释。

在明确对象范围之后,还需要说明本文为何要提出知识库这一建设方向。过去的语言资源建设多以语料库为中心,其贡献不可忽视,大量文本、录音与转写的汇集,为研究与模型训练提供了基础。但语料库往往更强调材料的收纳,而较少承担材料的系统整理。在人工智能时代,尤其在资源不足语言面临数字可见度下降的背景下,仅有材料的堆积仍显不足。许多语言现象如果缺少较为一致的切分、释义、译注与结构整理,研究者很难在大规模材料中稳定地检索与比较。本文所说的知识库,意在保存原始材料的基础上,进一步把材料中的词汇、语法与结构信息较为明确地整理出来,并以可追溯的方式组织呈现。它要求结论始终能够回到材料,读者不仅看到解释,还能看到依据;不仅看到归纳,还能检索到代表性例证与原始语境。这样,知识生成过程更透明,学术讨论也更容易回到可核验的材料层面。

与此相关的是本文对整理与标注的理解。所谓高质量整理,强调标准明确、口径一致,并经过必要的校订。对于书面材料,至少应在词语边界、词类属性、句子结构等方面做到清楚。对于口语材料,还需要有可靠的转写,并尽可能保留语音与语境信息,以便研究者在需要时回听核对。对于跨语言材料,译注与解释需要尽量可对照、可复核,避免译文与原文之间缺乏依据。尤其在少数民族语言整理中,常见把同一段话的原文、转写、切分、解释与译文按行排列并对齐,使读者可以顺着对应关系理解分析过程与翻译依据。这种做法的重要之处在于它把材料、分析与解释放在同一处,减少只见结论不见依据的问题,也为跨语言对照研究提供了较为直观的支撑。本文采用这一整理方式,目的在于提升材料的可读性与可检验性。

最后,需要交代本文对语言材料形态的基本态度。语言并不只存在于书面文本之中,许多关键现象依赖语音、语调、停顿与交际场景,甚至依赖表情、手势与共同注意的对象。对濒危语言与方言而言,音视频材料往往是保存语言实践的不可替代依据。因此,知识库将把文字、录音、影像与图片等资料纳入同一框架,并尽可能保留它们之间的对应关系。这样做的意义在于:研究者在阅读转写与解释时,可以回到录音影像核对细节。在讨论某些文化负载较强的词汇与表达时,也能借助场景与图像更准确地把握其所指与用法。多种材料形态的并置是为了让语言事实更完整、更可核验,从而为后续的比较、归纳与应用提供更可靠的基础。

综上所述,本文的学理基础可以概括为:一是以材料与语境为中心,强调结论可追溯、可复核;二是以中国语言生活的多样性为前提,强调多语言并置与可比性;三是在语料汇集之上推进系统整理,使语言事实能够转化为便于检索、对照与持续更新的知识资源。

三、中国语言知识库的总体构想

中国语言知识库,旨在回应人工智能时代语言研究与语言应用对可靠材料和可用知识的双重需求。所谓总体构想,就是要形成一种可长期积累、持续更新、便于检索比对并能随时回到语境核验的学术基础设施。它既要充分保存语言事实的原貌,又要把分散的语言现象整理成可供研究者反复调用的知识资源,从而避免材料与解释相互脱节,也避免只有概括而缺少证据支撑的情况。

这一构想的核心,是用清晰的层次把“保存材料”“整理材料”“归纳知识”三类工作区分开来,并在三者之间建立稳定的回溯通道。具体而言,知识库可概括为证据层、标注层与知识层的三层结构。证据层负责把语言事实保存完整并说明来源,标注层负责把材料整理得便于检索与核验,知识层则在可靠整理的基础上形成较为稳定的词汇、用法与结构性条目,并把条目与证据对应起来,使读者能够由结论返回用例,再返回语境。

为了让回到材料成为一种可日常操作的能力,知识库在组织上需要确定一个较为清楚的基本单位。本文倾向于以语言片段为基本组织单位,这里的片段既可以是一句话、一个话轮,也可以是一段短小的叙事或一则对话片段。重要的不在于单位大小,而在于它能够携带足够的语境信息,并能与相关材料对应。每一个语言片段应当与其出处相连:出自哪一部文献,采集于何时何地,由谁说出或写下,处于何种交际场景,是否为口语转写,是否有音视频可回听回看。这样,片段不再是孤立的句子,而是带着语境的材料条目。只有把这一步做扎实,后续的整理与归纳才不会成为脱离语境的抽象。

(一)证据层

证据层所承担的任务,是尽可能保留语言事实的原貌,并确保材料来历清楚、可核验。证据层不仅收纳书面文本,也应当包括录音、口述故事、会话影像、手语视频以及与语言使用相关的图片资料。对人文学者而言,证据层最重要的不是数量,而是可用性,一份材料是否能支撑分析,往往取决于语境是否清楚、出处是否明确、版本是否可靠、记录是否完整。文本材料需要说明来源与版本,口语材料需要说明采集过程与说话人背景,影像材料需要说明场景与参与者关系,图片材料需要说明对象指认与拍摄情境。证据层还应当尽量保留材料的内部结构,例如篇章边界、段落结构、会话轮次、说话人切换、停顿与重叠等,以免在后续转写与整理中把语言实践的关键线索消解掉。

证据层的另一项关键工作,是在材料收集与入库阶段尽量兼顾代表性与多样性,使知识库能够反映较为真实的语言生态,而不至于受某一类材料影响而产生偏差。汉语材料既需要兼顾历史文献与当代文本,也需要兼顾不同体裁与不同使用场景;汉语方言与少数民族语言材料则尤其需要兼顾不同地域、不同代际与不同交际场景,因为许多用法与词汇只在特定场景中出现。证据层如果过于集中于某一类文本,例如大量书面材料而缺少口语材料,就会导致后续知识归纳偏向书面用法;若口语材料只来自少数说话人或单一场景,也会使许多社会变异与语域差异难以呈现。因此,证据层的构建应当有基本的采集规划与补足机制,做到“看见欠缺、能够补足”,从而为标注层与知识层提供更稳固的基础。

(二)标注层

标注层的作用是把材料整理得更便于检索、对照与讨论。这里的标注应理解为学术意义上的整理与注释。整理的目标,是让研究者能够更快地定位现象、更可靠地比较材料、更清楚地复核解释。就文本材料而言,至少需要对词语边界、词类属性、句子结构等做相对一致的处理。就口语材料而言,首先需要有可靠的转写,并尽可能保留与录音影像之间的对应关系,使读者在对某一处切分、某一处理解存疑时能够回听核对。就跨语言材料而言,需要有可对照的译注与解释,尽量让译文与原文之间的对应关系清楚可查。标注层的任务是在尽量不损失语境信息的前提下,把材料中可讨论的语言信息标示出来。

在标注层的组织方式上,少数民族语言记录整理形成了一种颇为有效的传统,即将同一段话的不同层次信息按行排列并对齐。通常先呈现原文,再转写,随后做切分并附以必要的语法说明,再给出逐词解释与整句译文。它的意义是把材料、分析与翻译放在同一处,使读者可以顺着对齐关系逐步核对,某个成分为何这样切分,某个意义为何这样解释,译文的选择依据何在,都能在同一条材料中找到线索。对学者而言,这种呈现方式格外重要,因为它保留了研究过程的可见性,使解释能够在材料层面接受检验。知识库将吸收这一标注方式的优点,并根据不同材料类型作调整,使其既适用于少数民族语言资料,也适用于汉语方言材料与部分历史文献材料的整理,从而增强不同语言材料之间的可比性。

标注层的内容可概括为3个方面的整理:其一是语言形式的整理,处理词语边界、词类标注、句子结构、必要的语音信息与转写规范等,使材料在形式层面可检索、可统计、可对照。其二是意义与用法的整理,处理词义辨析、指代关系、语境功能以及译注说明等,使材料在解释层面可理解、可讨论、可复核。其三是语境与文化信息的补充,针对与社会生活、礼貌策略、习俗传统密切相关的表达,适度说明其使用场景与背景线索,使解释不至于脱离真实语言生活。

标注层还必须重视一致性与可校正性。所谓一致性是要求对同类现象尽量采用可重复的处理方式,并把例外情况的处理原则说清楚。面对真实语言材料,含混与不确定常常不可避免,例如口语材料中的省略、重复、纠错,历史文献中的异文异读,方言材料中的变体与摇摆。知识库允许在标注层中保留必要的说明,例如对可疑处作出注记,对不同的可能解释并列呈现,对后续可修订之处保留修订空间。如此,标注层不仅为机器提供训练材料,更重要的是为学术讨论保留可以被质疑、可以被修正的入口,使知识库能够在共同体的检验与积累中逐步提升质量。

(三)知识层

知识层是在证据与标注的基础上形成的归纳成果。它的目标是帮助研究者从海量材料中更快定位关键现象,并把相对稳定的规律整理成便于查询与引用的条目。知识层可以包含多种类型的成果,但其共同要求是与证据保持可追溯联系。词汇方面,可以形成较规范的词条信息,包括读音、写法、意义、常见搭配与代表性用例。少数民族语言部分则可形成双语对照的词汇整理,并标明来源用例与语境条件。语法与用法方面,可以归纳常见句式与结构特点,给出典型例句,并指出其适用范围与常见变体。跨语言对照方面,可以整理同一概念不同语言的表达方式,或整理常见的对应关系与译法差异,便于比较研究。文化与专题方面,则可围绕特定领域与主题整理术语与相关表达,例如传统生活、民间信仰、地方制度等,使知识库能够在学术研究之外,服务于教育与文化传播的需要。

需要特别强调的是,知识层的“归纳”应当是一种建立在证据之上的归纳。它不宜只给出抽象结论,而应以代表性用例支撑,并提供返回证据的路径。对学术研究而言,一条结论的可信度往往取决于其证据链条是否清楚,它基于哪些材料,材料分布是否广泛,用例是否典型,是否存在反例与限制条件。知识层若能把这些信息尽可能透明地呈现出来,就能显著提升其学术可用性。研究者在引用某一条目时,可以直接查看其代表性例句与出处;在质疑或补充时,也能在证据层找到相近材料继续讨论。如此,知识库中的条目不再是被固定的答案,而是可以在共同体使用中不断完善的研究节点。

证据层、标注层与知识层三层之间的贯通,是这一总体构想能否成立的关键。如果只是并列堆放,知识库仍可能沦为材料仓库或结论合集。本文强调的是一种双向贯通的关联:一方面,知识层中的条目应当能指向标注层中的代表性材料,再指向证据层中的原始语境。另一方面,证据层中的材料也应当能反向连接到相关的整理结果与知识条目,使读者在阅读材料时能够迅速看到相关解释与归纳。这样的贯通机制,既能提升检索效率,也能保持解释与材料的紧密连接。

由于本文强调文字、录音与影像等不同形态资料的并置,三层结构的贯通还应体现为材料之间的相互印证。对口语材料而言,文字转写只是进入分析的入口,许多重要信息仍保存在语音与场景之中。若知识库能够把转写与录音和影像对应起来,研究者就能在讨论某一处停顿、某一处语调、某一处含混时回到原声,避免仅凭文字作判断。对一些文化负载较强的表达而言,图片与场景说明也能显著减少误解,使语言解释更接近生活世界。这样的安排是把“可回听、可回看、可回查”的学术常识落实到知识库结构之中,使材料真正成为可持续使用的研究资源。

中国语言知识库的总体构想可以概括为:以可追溯的材料保存为根基,以较为一致的整理与注释为桥梁,以建立在证据之上的归纳条目为成果,并在三者之间构建双向可追溯的关联通道。它既尊重语言事实的复杂性,也尽力提供可用、可查、可核验的知识资源。这样的构想之所以必要,是因为它把传统人文学术中重证据、重语境、重可复核的要求,转化为一种可长期运行的资源形态,使语言研究能够在更广阔的材料基础上持续推进,也为语言记录、教育传播与智能应用提供更可靠的共同资源。在此总体构想之下,下面将进一步讨论建设方法与质量保障,说明如何在采集、整理、校订与更新等环节上形成可操作的流程,使上述设想能够落地实施并稳定运行。

四、建设方法与质量保障

中国语言知识库的建设,归根结底是一项以材料为中心的长期工作。与一次性资料汇编不同,它必须在持续积累中逐步形成稳定的工作流程,使材料能够被可靠保存,使整理结果能够被反复使用,使由材料归纳出的知识条目能够经得起检验。进入人工智能时代,知识库建设又多了一层现实条件,一方面,语言数据的来源更加多样,规模更大,单靠人工从头到尾处理,成本高、周期长。另一方面,语音识别、文字识别、分词、机器翻译等工具日益成熟,为先粗后细、层层校订的整理路径提供了新的可能。本文强调,技术的价值不在于替代学术判断,而在于承担大量重复性工作,把研究者从体力劳动中解放出来,从而把更多精力投入标准制定、疑难处理与质量把关之中。换言之,应当形成一种更符合人文学术传统的工作原则,机器负责生成初稿与提示线索,人工负责核验、修订与解释;技术手段用于扩展规模与提高效率,学术规范负责控制误差与维持可复核性。

知识库建设的第一环节是材料采集与入库。此处最需要警惕的是材料来源不清、语境缺失、结构偏斜。无论是书面文本、录音影像还是图片资料,都应在入库时配有必要的背景说明,例如来源与版本、采集时间地点、说话人或作者的基本情况、交际场景与话题类型、是否经过整理加工、是否存在公开限制等。对于口语与田野材料而言,语境信息往往比文字本身更关键,因为大量用法依赖说话人关系、场景约束与非语言线索;对于历史文献材料而言,版本与出处决定了可引用性与可比性。这里的入库规范应当尽量简明、可执行,强调可追溯而非面面俱到,但凡可能影响理解与引用的信息,都应尽量在入库阶段记录下来。技术上,可以通过统一的入库模板来约束填写项,并为每份材料分配稳定标识,使后续的转写、译注、抽取与发布能够持续引用同一来源,而不是在不同环节重复生成相互割裂的编号体系。

在采集与入库阶段,人工智能可以发挥两类辅助作用。其一是帮助发现材料。其二是帮助“初步分拣”。对海量文本可先做体裁识别、语言或方言线索识别,对音视频可先做时长统计与音质评估,对图片可先做内容标签提示,以便在后续整理中优先处理高价值、代表性强的材料。需要强调的是,这些自动分拣只能作为线索,最终仍需人工抽查核验,以免算法偏差在早期就影响材料结构。

第二环节是材料数字化与基础清理。中国语言知识库必然涉及大量纸质文献、地方志、辞书资料以及社区内部保存的文本影印件,也可能涉及传统文字或多种书写体系。文字识别在这里可以显著降低人工录入成本。对印刷体材料,可使用通用的文字识别工具先生成可编辑文本,再由人工校对。对版式复杂的文献,可结合版面分析先分栏分段,再进入识别与校对;对质量较差的扫描件,可先进行图像清理与倾斜矫正,提高识别效果。对民族语言文本,若存在多文字体系并存的情况,如同一材料同时出现本民族文字与转写体系,文字识别可先处理可识别部分,再由人工补全难识别部分。无论采用何种工具,校对都不应被视作“补救措施”,而应被纳入正式流程,对于将被频繁引用的核心材料,可采用双人校对或抽样复核,并记录典型错误类型,形成可复用的校对规则与替换表。只有把“识别 - 校对 - 留痕”做成稳定机制,数字化成果才能成为可持续使用的学术资源,而不是一次性成果。

第三环节是语音材料的转写与对齐。对汉语方言与少数民族语言而言,录音与影像往往是最珍贵的证据。传统做法依赖人工逐句听写,质量高但周期长。人工智能在此处最直接的贡献,是语音识别可以提供转写初稿,并且能够把音频切分成较小单位,帮助整理者更高效地定位与复核。需要看到的是,语音识别并非一经调用就能直接生成准确文本,尤其面对口音差异大、背景噪声强、夹杂多语或代码转换的材料时,错误不可避免。因而更合理的策略是把语音识别定位为辅助生成初稿与时间信息的工具,让人工把关与修订成为正式环节。具体流程可以是先用语音活动检测将长录音切分为较稳定的语段,再用语音识别生成每段的初步转写,同时保留每段的时间位置。整理者在界面上边听边改,系统记录修改点与错误类型,形成可复核的修订痕迹。对于对话材料,还应尽量区分不同说话人,以免转写混淆语境。即便自动分离说话人不够准确,也可以让整理者在关键段落手工校正,从而保证后续分析所需的“话轮结构”。

在低资源语言与方言场景中,通用语音识别工具常常效果有限。此时,多语种预训练模型提供了重要的起步能力。与此同时,也要清醒认识其局限,模型可能把相似音段误识为另一种语言或另一种常见词形,可能在专名、文化词、罕见词处频繁出错,也可能因为训练数据结构偏差而对某些口音的识别能力较弱。因此,知识库建设中使用此类模型,应当把重点放在辅助转写与对齐,而不是把输出直接当作可发布文本。

与转写密切相关的,是语音与文本的对应关系。学术研究强调回到材料,在口语研究中尤其体现为回听核对。因此,知识库应当尽量在转写文本中保留与音频或视频的时间对应,使研究者能够从一句转写快速跳回到原始语境。即便不追求逐字级的精细对应,至少做到句子或话轮级的对应,也能极大提升材料的可核验性。对齐工具可以在此发挥辅助作用:在已有转写的基础上,让系统自动估计每句在音频中的起止位置,再由人工抽查校正。对于将被反复引用的典型材料,可进一步细化对应粒度,使关键语段在学术引用中更易定位。这种对应机制并非技术展示,而是一种方法论要求的落实,它把证据链从理念变成可操作的实现机制,使读者不必依赖整理者的个人信誉,而可以依靠材料本身完成核验。

第四环节是文本材料的基础处理与检索准备。知识库面对的是海量文本与多语材料,若缺少基本的文本处理,检索与比对将困难重重。这里的技术手段主要包括分词、词类初判、专名识别与句子切分等。对汉语而言,分词工具可以提供初步切分,但分词本身在不少边界处存在争议,尤其在古汉语与方言材料中更是如此。因此,知识库建设不宜把分词结果视为真理,而应将其视为可修订的初稿。更稳妥的方式是:先用工具生成初稿,再由整理者依据统一规范进行校订;对争议较大的边界处,可保留注记或并列方案,并在规范中写明处理原则。对少数民族语言而言,词形变化较丰富或构词结构较复杂时,单纯套用通用分词往往不可靠,需要结合该语言的实际情况制定切分原则,并逐步积累词表与构词模式,反过来改善工具的提示能力。这里体现出知识库建设“人机协作”的路径:工具的价值在于提高初始效率,规范与积累的价值在于不断提升一致性与可比性。

第五环节是翻译与跨语言对应。中国语言知识库不仅服务单语研究,更重要的是为多语言并置与比较提供基础。对少数民族语言材料而言,译注往往是知识库可用性的关键;对方言材料与历史文献材料而言,现代汉语释义与语境说明同样重要。机器翻译在此可以承担“提供译文草稿与对照线索”的角色,尤其在材料规模较大、需要快速形成可读译文以便初步检索时,机器翻译能显著提高效率。但机器翻译的输出必须被视为“需要核验的草稿”,尤其在文化负载词、礼俗用语、隐喻表达、话语语气等方面,机器翻译常常会误解或过度直译。更稳妥的流程是:先用机器翻译生成整句译文草稿,再由熟悉语境的整理者校订,并在必要时补充逐词解释或关键成分说明;对反复出现的核心词汇与固定搭配,可建立双语词表与例句库,让后续翻译能在一致译法基础上推进,避免同一词在不同材料中译法漂移。对于资源不足语言,还可以结合前述多语种预训练模型与已有小规模双语资料,通过迭代方式逐步改进翻译质量,但无论如何,最终译注都应保留可回到原文核验的路径,避免“译文替代材料”的风险。

在翻译工作中,按行对照的呈现方式仍具有重要意义。把原文、转写、切分、必要的解释与译文放在同一处,不仅对读者友好,对质量控制也友好。机器翻译与自动对齐工具可以辅助生成初步对照关系,例如提示某个词或短语在译文中可能对应的位置,但对照关系最终仍需人工确认。对照越清楚,越能减少“译文看似通顺却与原文脱节”的问题,也越有利于后续跨语言检索与比较研究。这里的关键仍是可核验:译文不只是读者理解内容的桥梁,也应当成为研究者讨论语言结构与意义的可操作入口。

第六环节是质量控制体系的建立。知识库的生命在于可信度,而可信度来自可检验性与一致性。质量控制不应只发生在最后发布前的抽检,而应贯穿材料采集、转写整理、译注校订与知识归纳的全过程。采集阶段要检查来源信息是否完整、授权边界是否明确、材料是否符合预定范围;转写阶段要检查关键材料是否完成复核,常见错误是否被记录并反馈到规范中;分词与基础处理阶段要检查处理口径是否统一,对争议处是否有注记与处理原则;译注阶段要检查核心词汇与固定表达是否保持译法一致,对文化负载内容是否有必要说明。对将被高频使用的核心材料,可以采用更严格的复核制度。质量控制的目标并不是把所有材料做到同等精细,而是把关键材料做到可靠,把整体材料做到可用,并让误差的分布与边界对使用者透明。

为了让质量控制可执行,知识库应配套可读的规范文档与示例库。规范文档不宜停留在原则层面,而应以问题驱动的方式给出操作流程,例如口语中的重复与自我修正如何处理,历史文献的异体字与异文如何记录,方言中的变体如何呈现,双语译注如何保持一致。示例库则把典型难点案例整理出来,形成可供训练与讨论的公共参照。技术工具生成的初稿与人工修订的痕迹,也应当成为示例库的重要来源:一方面,示例能帮助新成员快速掌握处理规范;另一方面,示例也能让工具开发与参数调整更有针对性。随着建设推进,规范与示例应允许修订,但每次修订都应留下记录,并说明变动原因。

第七环节是版本管理与成果发布。作为学术基础设施,知识库必须提供清晰的版本概念,使研究者能够指明使用的是哪个版本,并在资源更新后仍可追溯到当时使用的材料与整理结果。较为稳妥的做法是分期发布:每次发布一个相对稳定的版本,配套版本说明,说明新增材料范围、整理层次、规范变动与已知问题;旧版本应保留归档,不应被覆盖删除。对外发布时,还应提供必要的统计概况与使用说明,让使用者了解材料分布、语言覆盖、体裁结构、整理深度与抽检情况,从而在引用与解释时把握边界。技术上,可以为材料与条目配置稳定标识,便于长期引用与互相链接。对音视频片段的引用,也应尽量提供可指认的时间位置或片段编号,使回到原始材料的核验成为可能。对于技术工具输出参与较多的部分,更应在文档中说明其生成与校订流程,避免使用者误把草稿层结果当作终稿。

第八环节是纠错、反馈与持续更新。知识库一旦进入使用,就必然会遇到新材料纳入、旧材料更正、译注修订与规范调整。确保更新机制透明,是质量保障的重要组成部分。知识库应提供反馈通道,鼓励使用者报告错误或提出补充建议;内部应有处理流程,对反馈进行核实、分类与处置;对重要更正应在后续版本说明中公开列出,使学术共同体能够了解资源变化。对于争议较大的解释,可以保留讨论记录,必要时并列呈现不同观点,并标明依据差异。这样做并不削弱知识库的权威,反而更符合人文学术的真实面貌:许多问题本就需要在材料检验与学术讨论中逐步澄清。透明的修订史使知识库成为可以共同建设的公共资源,而不是不可讨论的既定结论集合。

在持续更新中,还需要兼顾新材料吸纳与新旧可比。当代语言变化迅速,网络语言、新词新用法层出不穷;少数民族语言与方言材料也会随着记录深入而出现新的话语类型与新的语境。知识库若要保持活力,就必须不断扩展材料类型与覆盖面。但扩展的同时,应保留对旧材料的可比性,使研究者能够追踪变化而不失参照。这要求更新策略区分扩容式更新与修订式更新:前者侧重纳入新材料与新条目,后者侧重更正错误、统一口径、补足说明。每一次更新都应留下清晰记录,使研究者能够理解变化发生在哪里、为何发生,从而在研究解释中把资源变化纳入考虑。

综上所述,融入人工智能技术是要在坚持人文学科证据意识与语境意识的前提下,使用语音识别、文字识别、分词与机器翻译等工具,把初稿生成、人工校订、规范沉淀,版本发布真正落到实处。特别是在资源不足语言场景中,多语种预训练模型如MMS等为从零起步提供了现实路径,使大量口语材料能够更快进入可整理、可检索状态。而人工复核与规范建设则确保这些工具不会把误差放大为“知识”。当技术与学术规范良性配合,知识库才能既具规模扩展的能力,又具学术可信的底线,最终成为能够长期积累、持续更新、经得起检验的语言研究基础设施。

五、学术价值、应用前景与治理伦理

中国语言知识库的意义,不仅在于增添一种新的资源形态,更在于它把语言研究中长期存在的若干难题,以更可操作、更可检验的方式重新组织起来。过去相当多的语言学讨论,受制于材料分散、语境缺失、例证难以复核,往往停留在举例说明层面,难以形成可持续积累的共同基础。人工智能时代又进一步放大了这一矛盾:一方面,语言技术发展需要更大规模、更高质量、结构更清晰的语言资源。另一方面,如果缺少系统整理与可靠证据,技术系统很容易在偏斜的数据上学习并放大偏差,使资源不足语言在数字世界中更加边缘。中国语言知识库的构想,正是在学术研究与现实需求的交汇处提出:它既要服务语言学的理论探索,也要为方言与民族语言的记录保护提供更稳固的载体,并在合规与审慎的前提下,为语言技术、教育传播等提供可用资源。以下从学术价值、应用前景与治理伦理3个方面,进一步说明这一知识库的可能贡献与应守边界。

就学术价值而言,知识库最直接的作用,是为语言研究提供更扎实的证据基础,并把可检验真正落实到研究过程之中。音系、语法、语义、语用、历时演变与类型比较等领域的研究,都需要大量真实材料作为支撑。仅有材料数量并不足以保证研究质量,关键在于材料是否可追溯、是否带语境、是否便于检索与对照。知识库在证据层保存原始文本与音视频,并在标注层提供较一致的整理与译注,使研究者可以在同一平台上进行跨体裁、跨场景、跨地域的检索与比较,降低研究成本。更重要的是,知识层将把反复出现的词汇、用法与结构性现象整理为条目,并保留回到代表性例证的路径,从而使研究者在提出概括时更容易检查其证据分布,避免因少量例证而过度泛化。对学术而言,这种将依据公开呈现出来的资源形态,能够显著提升讨论的效率。争论可以更快回到材料层面,分歧也更容易定位到语境差异、材料范围差异或处理口径差异,而不至于停留在各执一词的判断。

在历时与区域研究中,知识库的价值尤为明显。汉语历史材料浩繁且版本复杂,方言材料又常常零散分布于调查记录、地方志与研究论文中,学者在跨时期、跨地域比较时常面临“材料难找、形式难对齐、解释难复核”的障碍。若知识库能够把不同时期的文献材料纳入统一的保存与整理框架,并对关键现象保留可追溯的例证链条,研究者就更容易进行大范围的历时统计、结构演变的路径追踪以及地域差异的系统比较。对方言研究而言,若口语材料能够与音频对应,研究者在讨论音变、语调、弱化与连读等现象时就能回到原材料核验,从而减少仅凭转写而产生的误判。对少数民族语言研究而言,知识库如果能够稳定地保存口述材料、对照译注与语境说明,就能为词汇整理、语法描写、语言接触研究提供更可靠的共同材料基础,也能使不同研究者更容易在同一证据上开展对话。

知识库对跨语言比较与类型研究同样具有促进作用。中国境内语言类型多样,语序、形态、音系系统差异显著。许多理论问题若只在汉语内部讨论,往往难以看清其一般性与特殊性。知识库在总体设计上强调多语言并置,并通过较一致的整理方式增强材料的可比性,这为类型研究提供了更可操作的条件。研究者不仅可以比较不同语言对同一概念的表达方式,也可以在更大范围内比较结构选择与语义编码方式的差异与共性。更重要的是,知识库将跨语言比较建立在可追溯的材料之上,使类型概括不至于变成抽象的标签拼接,而能落实到具体用例与语境中。对于强调证据与可核验的人文学术而言,这一点意味着类型研究可以获得更坚实的经验基础,也更容易产生对理论有解释力的比较发现。

除了为研究提供材料与检验条件,知识库还可能改变学术成果的呈现方式与积累方式。传统学术成果以论文、辞书、语法书等形式出现,其优点是论述完整,但缺点是更新较慢、可计算支持能力有限,且材料与结论的连接有时不够直观。知识库的条目化整理与回溯机制,使词条、用法说明、结构归纳可以在长期维护中不断修订完善,也使不同研究成果更容易通过共享材料与共同规范而彼此衔接。研究者在知识库中增加一条可靠例证、修订一处译注、补充一条变体说明,实际上也是在公共基础设施上进行学术积累。这样的积累方式能为其提供更坚实的材料地基,并让学术共同体共享更透明的证据链条。

就应用前景而言,中国语言知识库具有明显的公共价值,尤其在方言与民族语言的记录保护方面。许多濒危语言与方言的核心问题不在于缺少研究者关注,而在于缺少可长期保存、可持续维护的高质量材料。知识库以证据层保存音视频与语境信息,以标注层提供转写与译注,并在知识层形成词汇与用法条目,这为语言记录提供了一个更完整、更可持续的载体。对社区而言,知识库不仅是学者的研究工具,也可以成为文化传承与语言教育的资源来源。知识库的建设应当把“回馈”纳入规划:材料来自社区,成果也应当以适当形式回到社区,促进语言文化的可持续传承,而不是把大众仅当作资源提供者。

在语言技术与智能应用方面,知识库同样具有现实意义。当前大型语言模型与多种自然语言处理系统,往往在英语等资源丰富语言上表现较好,而在资源不足语言上效果有限,其原因之一是高质量训练材料与评测材料缺乏。中国语言知识库如果能够在规范整理与质量控制下积累多语言材料,并形成稳定的转写、译注与词表,就能为机器翻译、语音识别、文本分析等任务提供更可靠的数据基础。尤其在少数民族语言场景中,多语种预训练模型虽然提供了起步能力,但要获得可用水平,仍需要高质量的校订样本与标准化评测集合。知识库可以在建设过程中逐步形成这类可用于训练与评测的资源,从而推动资源不足语言的技术发展不再停留在概念层面。与此同时,知识库强调可追溯,也为技术系统的可解释性提供了支撑:当系统输出某种翻译或分析结果时,可以回到知识库中的例证与条目查证依据,从而降低黑箱式应用的风险。

知识库在教育与文化传播领域也有广阔空间。对汉语教学而言,知识库可提供大量可检索的例句、搭配、语境用法与历时用例,使教学不再局限于少量教材例句。对汉语方言与少数民族语言教育而言,双语对照材料、口述故事、术语整理与场景解释都可以成为课程资源。对公众文化传播而言,知识库可支持方言地图、词源查询、俗语解释等面向大众的应用,前提是内容整理必须可靠且可追溯。更重要的是,知识库强调多模态材料的保存与对应,这使语言文化传播不止停留在文字层面,而能够通过音视频与场景材料更真实地呈现语言实践,增强公众理解与参与的可能。

在看到价值与前景的同时,知识库建设必须正视治理与伦理问题。语言资料不同于一般文本数据,它往往带有明确的主体关系与文化归属。口述材料可能涉及个人隐私与敏感经历,社区语言材料可能涉及集体知识与传统禁忌,某些仪式语言与文化内容甚至并不适合公开传播。若缺少审慎治理,知识库不仅可能引发侵权争议,更可能对个体与社群造成伤害。因此,治理伦理不应被视为附带章节,而应贯穿知识库建设的全过程,并在制度设计上形成明确的边界与责任。

首先是授权与版权问题。对录音与影像材料,应在采集阶段取得清晰的知情同意,说明资料用途、保存方式与可能的公开范围,并允许说话人或社区对公开程度作出选择。对传统故事、歌谣与仪式文本等集体文化内容,应尊重社区的决策权,在必要时争取文化管理机构或社区代表的许可,并对不宜公开的部分采取受控访问或仅供内部研究的方式。对书面文本与网络材料,应严格区分公共领域、开放许可与受版权保护材料;对无法公开的材料,可考虑仅提供索引与统计信息,或在合理使用范围内提供少量例证。预先说明并明确材料使用边界,不仅能减少后续纠纷,也能让知识库在开放共享与合法合规之间取得更稳妥的平衡。

其次是隐私与敏感内容处理。口述材料常包含个人身份信息、家庭经历、医疗宗教等敏感内容;汉语方言与少数民族语料也可能涉及群体形象、地方冲突或内部禁忌知识。知识库应当建立基本的匿名化与脱敏策略:个人可识别信息与语料本身尽量分离保存,公开发布时对必要信息作模糊化处理。对涉及敏感主题的片段,可设置访问权限,限制为授权研究者使用。对社区明确认为不宜公开的材料,应尊重其意见,采取不公开或仅在社区内部使用的策略。更重要的是,应建立撤回机制:当说话人或社区提出撤回请求时,应有明确流程处理,并在版本管理中留下记录,以体现对数据主体的尊重。

再次是大众参与与回馈机制。知识库若要在少数民族语言与濒危语言领域长期运行,不能停留在采集、入库、发表的单向模式,而应把大众视为共同建设者。实践上,这意味着在采集与整理过程中吸纳母语者参与转写、译注与校订。在成果发布时提供面向大众的可用版本,例如双语故事集、学习词表、教学资源包等。在技术应用层面,避免将大众语言数据用于与其利益无关甚至可能损害其利益的用途。大众参与不仅是伦理要求,也直接影响数据质量:母语者对语境与细微意义的把握,是外来研究者难以替代的。把大众纳入知识生产过程,既能提高资料可靠性,也能增强项目的正当性与可持续性。

最后是开放共享与风险控制之间的平衡。知识库作为公共基础设施,理应尽可能支持学术共享与社会使用,但开放并不意味着无差别公开。更稳妥的方式是分级开放:对版权清晰、授权允许、无明显风险的材料开放;对存在版权或敏感风险的材料实行受控访问;对具有明显文化禁忌或可能造成伤害的材料不公开或仅保留汇总性信息。与此同时,知识库应提供清晰的使用条款,说明允许的使用范围、引用方式与禁止行为,并建立违规处理机制。对与技术企业合作的情形,更应明确数据用途、训练范围与收益回馈,避免出现“数据被抽取、社群无收益”的不公平局面。只有把这些规则写清楚并能执行,知识库的开放才不会变成对弱势语言社群的二次剥夺。

总体而言,中国语言知识库不仅为语言研究提供了可检验的证据与长期积累平台,也为方言及民族语言的保护传承与数字可用性拓展了应用前景。在坚守授权合规、隐私保护与分级开放等伦理边界的前提下,知识库方能成为真正可信、可用、可持续的学术基础设施,进而为夯实人文学术根基、促进语言文化传承与技术发展公平性提供坚实支撑。

(注:文章公众号推文中的参考文献及注释省略,详见纸刊)

THE END

文章刊于《云南师范大学学报》

(哲学社会科学版)

2026年第2期

一审 | 和智利  二审 | 黄龙光  三审 | 熊理然

一校 | 王浩禹  二校 | 和智利  三校 | 朱碧波

云南师范大学学报(哲学社会科学版)不收取任何形式的审稿费、版面费。

云南师范大学学报(哲学社会科学版)唯一投稿途径为云南师范大学官网学报编辑部:

https://qkgj.ynnu.edu.cn/jwk_xb/

阅读原文

跳转微信打开

  •  

5.18截止,我们还在招:北语26国际中文教育博士生招生!

徐惠 2026-05-08 09:01 江苏

北语2026国际中文教育博士招生,5.7-5.18报名,硕博连读与申请考核选拔。

转载自“汉语堂”

图片

图片

1

硕博连读

面向已按学科培养方案要求修完硕士学位课程、各科成绩优秀,经硕士生导师同意可申请硕博连读的本校非定向全日制二年级在读硕士研究生(硕士专业学制应为三年,学制为两年的硕士生可直接选择“申请-考核”制报考攻读博士学位),择优遴选博士研究生的招生方式。

2

申请-考核

面向符合报考条件的人员进行考核选拔博士研究生的招生方式。

本次国际中文教育专业博士招生计划约51人,其中含骨干计划5人,最终人数以实际录取为准。

招生导师见招生专业目录(附件)。为深化研究生培养机制改革,优化人才选拔方式,我校在原有“按导师报考”基础上,新增“不区分导师报考、学科统一考核”的招生模式,考生在报名阶段如有明确报考导师意向,可选择相应导师填报志愿;如无明确报考导师意向,则可仅填报研究专业及方向,在系统中选择“不区分导师”。

(一)中华人民共和国公民。

(二)拥护中国共产党的领导,品德良好,遵纪守法。

(三)身体和心理健康状况符合国家和学校规定的体检要求。

(四)有至少两名所报考学科专业领域内的教授(或相当专业技术职称的专家)的书面推荐意见。

(五)符合所报考学科提出的其他条件和要求。

(六)通过硕博连读方式申请的考生须符合下列条件:

1.符合申请条件中(一)至(五)的要求;

2.具有我校硕士研究生正式学籍的非定向全日制二年级在读硕士研究生,硕士专业学制应为3年;

3.已完成培养方案中规定的课程学习和考核,且成绩优秀,无不及格记录,相关标准见《北京语言大学研究生课程考核及成绩管理办法》;

4.对科学研究有浓厚兴趣,具有较强创新精神和科研能力;

导师及培养单位经考察并研判,确认其具有培养前途后,认真填写《北京语言大学硕博连读研究生申请表》相应意见栏。

5.所申请专业应与硕士研究生阶段学习专业相同或相近,原则上不能跨一级学科。如所在硕士专业不具有博士学位授予权,可申请相关的一级学科。

(七)通过申请-考核方式申请的考生须符合下列条件:

1.符合申请条件中(一)至(五)的要求;

2.已获硕士学位的人员或应届硕士毕业生(须在录取当年入学前获得硕士研究生毕业证书和学位证书);

凡在中国大陆地区以外取得学历或学位者,最晚须于报到日前取得硕士研究生毕业证书和教育部留学服务中心出具的《国(境)外学历学位认证书》,否则录取资格无效。

3.获得学士学位后,工作六年以上(含六年,从获得学士学位到录取为博士生当年的9月1日),按硕士同等学力身份报考,并须满足以下要求:a)已修完至少10门所报考学科的硕士学位课程且成绩合格(须提供授课单位校级成绩管理部门盖章的成绩单);b)本年度报名最后日期之前在CSSCI来源期刊上已发表过三篇及以上与报考专业相近或相关的学术论文(署名前2位);c)以同等学力资格申请还须加试两门专业课及一门政治理论课。

1

报考须知

1.报考前请认真阅读我校招生简章中的所有内容,凡有下列情况之一者,造成报名无效,我校概不承担责任:①不符合我校报考条件;②所提供的信息、材料不完整或不真实。

2.我校博士研究生均须全日制学习,不招收非全日制博士生。

3.报考类别包括以下两种类型,请正确选择:

(1)非定向:考生在被录取后没有保持人事关系的正式工作单位,读博期间个人人事档案及户口转入我校(户口自愿选择是否迁入),毕业后在国家政策指导下就业。

(2)定向:考生在被录取后仍与本人所在定向单位保持人事工作关系,读博期间个人人事档案及户口不转入我校,毕业后回定向单位工作。

考生录取时的“录取类别”即为报考时“报考类别”,请考生在报考时谨慎选择,拟录取为“定向就业”的考生须与定向单位、北京语言大学签订三方协议。

注:报考少数民族骨干计划的考生报考类别均为定向。通过硕博连读方式报考的考生报考类别均为非定向。

4.我校不允许研究生同时攻读两个及以上不同层次或相同层次的学位。

2

网上报名及缴费

符合条件的考生登陆网上报名系统填报信息,并交纳报名费200元。网上报名系统将于2026年5月7日10点开通,2026年5月18日10点关闭,逾期未完成报名者,学校不安排补报。

3

提交申请材料

考生提交以下申请材料(相应模板下载地址见网报公告):

1.材料清单;

2.申请人有效居民身份证,正反面扫描在同一页;

3.拟攻读博士学位的研究计划书(一般不少于5000字);

4.专家推荐信(两封),推荐人应为报考学科专业领域内的教授(或相当专业技术职称的专家),推荐信由专家本人填写、手写签名(不得使用电子签名)并密封(密封时,在密封袋封口骑缝处再次签名),填好后的推荐信不与考生见面,被推荐考生本人不得查看,由推荐专家填写后寄至我校研招办,也可密封后由考生转寄;

5.外语水平能力证书,报考外语类专业的考生除二外水平能力证明材料外,还应提供本专业语种相关水平能力证明材料;

6.学术经历及成果材料,包括一份个人教育、学术经历及成果自述,理论和学术成果的证明材料或实践和创作成果的证明材料等;

同等学力考生须提交3篇及以上本年度报名最后日期之前在CSSCI 来源期刊上发表过的与报考专业相近或相关的学术论文(署名前2位)及学术期刊封面、目录。

7.最高学历、学位证书和相关认证报告。“申请-考核”考生提交硕士毕业证书、硕士学位证书,应届硕士和“硕博连读”考生提供《教育部学籍在线验证报告》;在境外获得学历(学位)的考生,须提供教育部留学服务中心出具的认证报告(应届生须提供就读学校出具的学籍证明并注明预毕业日期或获硕士学位日期);

同等学力考生须另提供本科毕业证、学位证。

8.硕士课程成绩单(往届生可在考生人事档案保管单位或硕士就读学校的档案管理部门复印并盖章);

同等学力考生提交到高校进修10门以上硕士研究生课程的成绩单(研究生培养部门盖章有效);

除材料1-8外,“硕博连读”考生还须提交:

9.《北京语言大学硕博连读研究生申请表》。

除材料1-8外,“申请-考核”考生还须提交:

10.硕士学位论文(应届硕士毕业生可提供开题报告、研究工作进展情况、论文初稿等,往届生提供全文);

11.少数民族高层次骨干人才计划考生,须通过资格申请平台审核;

12.报考类别为“定向就业”的考生,须提供定向单位同意报考证明。

除材料4外,以上所有材料均应扫描为PDF文件(内容应清晰可见,如缺少相应材料,请用A4纸替代,并说明、签字),按博士报名系统提示上传到博士报名系统中。除4、9、12外,其他材料不需要邮寄纸质版,原件均需备查。

以上提供材料必须真实可靠,如有弄虚作假,一经发现,不予录取,相关后果由考生本人承担。

4

材料审核

按专业成立5名及以上博导或教授组成的学科组,负责对该专业所有考生进行材料审核和评价,按百分制独立打分,取平均分为材料审核最终成绩,成绩高于60分的进入综合考核。

材料审核成绩构成:

攻读博士学位期间研究计划书、专家推荐意见:40%;考生学术经历和成果(根据参与科研、发表论文、出版专著、访学进修、参加学术会议、获奖、教育经历等情况综合评价):40%;硕士学位论文、硕士课程成绩:20%。

5

综合考核

综合考核包括综合笔试和综合面试两个环节。

综合笔试包括外国语笔试和学术写作笔试,同等学力人员须加试两门硕士阶段专业课和政治理论,每科总分100分,60分及以上为合格,低于60分,不予录取。

外国语笔试考试科目限定在英语、基础外语(中文试题,考生按照试题要求,使用相应语种答题,可选择语种为:俄语、日语、法语、阿拉伯语、西班牙语。),注:考试语种为英语的请选择1011英语科目。

所有申请人均须参加北京语言大学组织的博士研究生招生入学外语考试及学术写作考试。

综合面试由招生导师组织5名及以上博导或教授组成综合考核组,对考生进行面试考核,重点考查考生在本学科攻读博士学位的学术素养、学术志趣、研究能力、创新潜力等,按百分制独立打分、取平均分得出考生最终面试成绩,并给出录取意见。

6

录取原则

1.所有考生(含少数民族骨干计划考生)根据各导师招生计划人数或报考专业方向招生计划人数按总成绩从高到低录取。

总成绩=综合笔试成绩*40%+综合面试成绩*60%

综合笔试成绩=外国语考试成绩*50%+学术写作笔试成绩*50%

同等学力加试成绩仅做合格要求,不计入总成绩。笔试考核各科目、面试考核任意一项成绩低于60分的,不予录取;录取意见为不录取的,不予录取。

骨干考生报考须符合教育部文件中关于招收少数民族高层次骨干人才研究生计划生源范围及招生对象的要求。

请注意,报考同一导师的所有考生(含专项计划)考核录取办法相同,均占用导师招生计划,在导师招生计划内一起排名,按总成绩从高到低择优录取;报考同一专业/方向、不区分导师的所有考生(含专项计划)在专业/方向招生计划内统一排序,按综合考核总成绩从高到低确定拟录取顺序,在成绩排序基础上,由学科专家组结合各导师招生名额、研究方向及考生志愿(或面试中体现的研究方向意向),统筹进行导师匹配;报考不同导师(含不区分导师)的专项计划考生,如拟录取人数超出专项计划下达数,同一录取批次内按外国语笔试成绩排名,排名超出下达专项计划数的考生将不予录取。

2.有下列情况之一者,学校将取消录取资格:

(1)申请人提供的材料与事实不符,存在弄虚作假情况。

(2)思想政治素质和品德考核未通过。

(3)不符合规定的体检标准或因身体缺陷、疾病而不能继续学习。

(4)发生影响接收录取的其他情形的。

3.为保障招生计划落实以及维护招生的严肃性,拟录取后如放弃拟录取资格请在公示期内提出。公示期结束后提出放弃拟录取资格或不予受理。

(一)网报时间:2026年5月7日10点至2026年5月18日10点,逾期未完成报名者,学校不安排补报。

(二)材料审核结果公示时间:见后续通知。

(三)笔试时间:时间和地点见后续通知。

(四)综合面试时间:时间和地点另行通知。

(一)我校研究生招生信息均在网上公开发布。报名、材料审核、综合考核、拟录取等信息均可在我校研究生院网站(http://yjsy.blcu.edu.cn/)或“北语研招”微信公众号查询,请及时关注。

(二)我校专业学位博士研究生基本学制为3年,硕博连读转为博士学籍后学制按专业学位博士基本学制执行。学校优先选拔学业优秀的国际中文教育专业学位博士研究生赴海外分校、海外中国研究院、海外孔子学院进行教学研究实践。

(三)定向研究生(非在职的骨干计划及公费师范研究生除外)不安排住宿,住宿政策见学校相关住宿规定,如有变化以学校最新规定为准,具体请咨询我校住宿管理部门。

(四)我校国际中文教育专业学位博士研究生学费48000元/生/学年,相关学费标准详见北京语言大学财务处官网。

(五)如因考生个人原因取消报名、不能参加考核或未被录取,已交付的报名费、报名材料一律不予退还。凡不符合报考条件的考生将不予录取,后果由考生本人承担。

(六)我校不举办任何形式的考前辅导班。

(七)我校研究生招生办公室联系方式:

北京市海淀区学院路15号

北京语言大学综合楼1029室研究生招生办公室

邮编:100083

联系电话:010-82303470

公众号:北语研招(blcuyanzhao)

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

征稿|第九届计量语言学学术研讨会

qler 2026-05-07 09:01 江苏

以下文章来源于:计量语言学

计量语言学

语言研究科学化、中国语言学国际化

第九届计量语言学研讨会8月呼和浩特举办,聚焦人机智能语言研究征稿。

转载自“计量语言学”

“人机智能共同体时代的语言研究

暨第九届计量语言学学术研讨会

征稿通知

    以大语言模型(LLM)和生成式人工智能(GenAI)为代表的智能技术,使人类与机器的关系从使用工具的主客体迈向深度协作与共同创造的智能协同。人机智能协同正在重塑科学研究的范式与边界。这一变革,为语言研究带来前所未有的可能性,也对传统研究提出挑战。

    为深入探讨人机智能协同背景下的语言研究前沿问题,内蒙古大学蒙古学学院与北京语言大学计量语言学研究中心联合举办“人机智能共同体时代的语言研究”暨第九届计量语言学学术研讨会。

    热忱欢迎相关领域的专家学者、科研人员、高校师生赐稿参会!

    现将会议有关事项通知如下。 

    一、会议议题

    1.  人机智能协同语言研究的机遇与挑战

    2.  LLM和GenAI在语言研究中的应用

    3.  数据驱动的语言研究

    4.  少数民族语言文学计量研究

    5.  数字人文研究

    6.  计量语言学其他研究

    二、会议安排

    时间:2026年8月5日(星期三)报到,6-7日正式会议,8日离会。

    地点:内蒙古自治区呼和浩特市

    形式大会报告、分组报告、海报展示

    费用:注册费800元/人,学生凭有效证件减半。往返交通费和住宿费自理(会务组可协助预订酒店)。

三、会议投稿

    会议面向国内学者和在读学生公开征稿。请有意参会者于2026年6月5日(星期五)前,扫描下方二维码,提交论文摘要(500字以内)和相关信息。

    会议将组织专家对投稿进行评审,于2026年6月下旬发布录用通知。

    会议联系人:谢老师

    邮件地址:yonghui_xie2026@126.com

    敬请学界同仁惠赐大作!

(请扫码提交稿件)

“人机智能共同体时代的语言研究”

暨第九届计量语言学学术研讨会组委会

2026年5月6

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •