普通视图

Received today — 2026年4月18日12 - 南京师大比特人文公众号

《人工智能 语料库 标注术语》参编单位征集

2026年4月17日 07:30

徐惠 2026-04-17 07:30 江苏

教育部语用所启动《人工智能 成都话拼音标注规范》研制,征集参编单位与专家,5月30日前报名。

转载自“语标智研”

为深入推进人工智能领域语言文字规范标准建设,服务大模型时代高质量语料数据治理需求,受有关司局委托,教育部语言文字应用研究所开展《人工智能 语料库 标注术语》标准研制工作。

本规范聚焦语料库建设与标注实践中的核心术语需求,梳理全流程概念体系,明确术语定义、分类框架及使用规则。成果可服务于数据处理与应用等环节,为减少术语歧义、提升应用一致性提供支撑。

面向全国高校、科研院所、人工智能企业、数据标注服务机构及重点行业单位,诚邀相关领域具有研究基础与实践经验的单位和个人积极参与,共同推进术语标准的研制与产业落地应用。

请有意参与编制的单位及专家于2026年5月30日前扫描下方二维码复制链接https://f.wps.cn/ksform/w/write/383ZQL8p#routePromt进行报名。


比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Received yesterday — 2026年4月17日12 - 南京师大比特人文公众号

第七届清华数字人文国际论坛“未来学者”专场报名通知

2026年4月16日 09:00

徐惠 2026-04-16 09:00 江苏

第七届清华数字人文国际论坛未来学者专场招募学生投稿,7月在上海大学举办。

转载自“DH数字人文”

“未来学者”专场

人文学术的未来,寄托于未来的人文学者;也即是当下正致力于研究和探索的青年学子。为鼓励和支持本、研阶段学生投入数字人文研究,结合数字时代新方法、探索人文学术新方向,《数字人文》学术集刊持续举办第七届“未来学者”论坛,诚邀国内外的本科生、硕士生、博士生在读学生(不含博士后)投稿并参会。

期待来稿面向人文问题、结合数字方法,给出来自文学、历史、哲学、社科、艺术、教育、传播乃至政治学、图情档案等各个领域的回答和发现。

本届入围者将受邀参与第七届清华大学数字人文国际论坛“未来学者”专场,获得专家指导评议及进一步研究支持,并于本刊择优刊发。

投稿须知

摘要提交截止日期:2026年5月22日

全文提交截止日期:2026年6月12日

投稿地址:

https://szrw.cbpt.cnki.net 

入围名单及参会事宜请参见后续通知。

时间地点

2026年7月10日-13日    共4天

报到7月10日

会议 7月11日—12日

赋归7月13日

上海大学宝山校区(上海市上大路99号)

合作酒店

上海衡山北郊宾馆

:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

我们期待您的参与,共同探讨数字人文的前沿议题,推动学术研究的创新与发展!

论文格式模板及要求-中文.pdf

论文格式模板及要求-中文.pdf

会议时间地点

2026年7月10日-13日    共4天

报到  7月10日

会议  7月11日—12日

赋归  7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

地址:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

论文格式模板及要求-中文.pdf

END

公号二维码-1.jpg

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Received before yesterday12 - 南京师大比特人文公众号

周志华:文科生在人工智能创新创业领域将发挥巨大作用

2026年4月15日 09:01

徐惠 2026-04-15 09:01 江苏

周志华称AI赋能文科生,其创意在创新创业中作用巨大,南大模式已推广。

转载自“人工智能行动信息港AI HUB”

文科生的春天来了!4月12日,作为AI领域的顶级科学家,国际人工智能联合会理事会主席周志华在常州召开的“经济大省挑大梁”破圈传播网络主题沙龙活动现场表示,人工智能的创业创新关键在年轻人,而这些年轻人中的文科生发挥了意想不到的作用。在周志华看来,人工智能成为了文科生的翅膀,让他们的想法与创意变成现实。

人工智能能做什么?年轻人又如何利用人工智能创业?周志华在沙龙中讲述了南京大学的实践,那就是在校内面向有创业意向的研究生进行“AI+创新能力提升行动计划”,并开设多门人工智能通识与应用的课程,课程异常火爆,500多名研究生参与其中。

周志华表示,今天的人工智能技术已经发展成很多实用的工具,“了解这些工具的创业者,就可以用这些工具,很快地把自己的想法变成现实。”周志华接着表示,当年轻人创业初见成效后,可以不断地改进产品或服务,他们就可以寻找真正研究算法的团队合作,改进算法原型,最终形成更优的产品,提高创业团队竞争的门槛。

“我们发现,文科生在整个过程中发挥了我们以前没有预料到的作用。”周志华在分享中表示,人工智能发展起来,不是文科生没有前景,反而是大有可为。

人工智能给文科生能力带来的能力提升,远远超过对理工科学生的帮助。”周志华解释,因为原来文科生是“想得到做不到”,现在有了人工智能工具之后,能帮助他更好地做成事情。

“比方说,我们班上就有很好的创意,是文科生天马行空提出来的。”周志华笑言,理工科生比较严谨,往往想不到这些好创意。“而把文科生与理科生一旦放到一起,就有无限的活力。”

周志华举例,有一位同学提出,现在很多家庭都有宠物,把宠物当自己小孩一样,有的家里面还有监控系统,能不能用摄像头等工具做一个宠物翻译,这样,主人随时就能知道宠物想干什么。“结果,同学们合作,当这个创意想法做出来之后,马上有10多家宠物公司的来联系合作。”

周志华介绍,南京大学“AI+创新创业班”的模式已经开始推广。今年,南京市鼓楼区已经把南大的课程推广到了区级层面,南京市级层面还搞了一个人工智能训练营,这个模式也推向南京市,也是场场爆满,南京不同高校的学生甚至许多社会上的年轻人都热情高涨来这个班学习。

人工智能对很多传统职业已经产生了威胁,但是也会诞生出更多全新职业。周志华表示,从大方向来看,人工智能会对整个社会的发展有重大促进作用,可以把更多的年轻人的想法与创意变成现实。

“最后,我特别引用毛主席《沁园春·长沙》这首词里面有两句话,我觉得特别适合AI+创新创业。”周志华说,一句是“鹰击长空,鱼翔浅底,万类霜天竞自由”,就是面向无穷多的应用场景,发挥年轻人的各种想象力创造力,而且这件事一定是年轻的时候最好做的,所以另一句是“恰同学少年,风华正茂。”

以上来源:新华日报,由人工智能行动信息港AI HUB分享阅读

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

讲座预告 | 饶高琦《从灵感到建设 —— 以BCC语料库系统为例》

2026年4月14日 09:00

徐惠 2026-04-14 09:00 江苏

山东大学翻译学院邀饶高琦副研究员开语料库建设专题讲座,探讨大模型时代发展前景。

讲座预告

语料库是语言生活的 “显微镜”,也是语言研究中最重要的经验主义方法之一。山东大学翻译学院特邀饶高琦副研究员,带来题为《从灵感到建设 —— 以BCC语料库系统为例》的专题讲座。本次讲座将介绍语料库建设的一般性流程与关键环节,以BCC语料库系统为例,阐释数据驱动方法在语言知识萃取中的应用,同时分享新型生成式语料库的建设案例,并探讨大模型时代语料库的发展前景。

讲座时间及其他

  • 时间:2026年4月15日(周三)19:00-21:00

  • 地点:线上腾讯会议

  • 会议号:970-641-445(入会请单位实名制)

主讲人简介

饶高琦副研究员:北京语言大学语言科学学院副研究员,硕士生导师,中国标准化委员会语言与术语技术委员会SAC TC62委员、中国中文信息学会青年工作委员会委员。主要研究领域为:语言资源建设、语言规划和数字人文等。在国内外期刊、会议发表论文五十余篇,起草多项团体和国家标准。创办并主编语言学公众号 “汉语堂”。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

讲座预告 | 冯志伟《从符号处理到智能未来——大数据时代的语言学研究》

2026年4月13日 09:00

徐惠 2026-04-13 09:00 江苏

首图讲坛尚读沙龙第三讲,冯志伟5月16日主讲大数据时代语言学研究,可扫码预约。

讲座预告

首图讲坛尚读沙龙第三讲特邀冯志伟研究员,带来题为《从符号处理到智能未来——大数据时代的语言学研究》的专题讲座。

讲座时间及其他

  • 时间:2026年5月16日(周六)14:00

  • 地点:首都图书馆 A 座报告厅(东侧玻璃门入口)

  • 主办:首都图书馆、商务印书馆

主讲人简介

冯志伟研究员:国家教育部语言文字应用研究所研究员、博士生导师、学术委员会委员,新疆大学天山学者。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

会议丨我用AI校古籍——我是“校书官”古籍大众智能整理计划(2026年)启动仪式暨海外汉籍资源汇聚与典籍活化前沿论坛

2026年4月12日 09:00

徐惠 2026-04-12 09:00 江苏

2026年4月10、11日,AI古籍整理计划启动暨海外汉籍论坛在山东大学举办。

转载自“古典文献学微刊”

感谢会务组授权发布!

排版:拊石

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

“《语言文字应用》青年学者论学”第七期即将举办

2026年4月11日 09:01

徐惠 2026-04-11 09:01 江苏

《语言文字应用》青年学者论学第七期在长沙举办,聚焦语言文字与国家安全和发展战略。

转载自“语言文字应用杂志”

 青年学者论

“《语言文字应用》青年学者论学”第七期定于2026年4月10日~11日在国防科技大学军政基础教育学院举办,由《语言文字应用》杂志、国防科技大学军政基础教育学院联合主办。

1

论学主题

语言文字与国家安全和发展战略

2

主要环节

环节一:开学式

领导致辞

环节二:专家释讲

青年学者与专家就讲座内容交流释疑

环节三:青年论学

专家与青年学者就报告内容讨论交流

环节四:集体研讨

专家组织讨论交流并给予点评指导

环节五:对话辨析

专家与青年学者围绕主题自由对话

环节六:论学述评

专家对本期论学作述评总结

3

日程安排

0409下午(2)(再版)《语言文字应用》青年_08.png

0409下午(2)(再版)《语言文字应用》青年_09.png

 4

集体研讨环节分组

0409下午(2)(再版)《语言文字应用》青年_10.png

0409下午(2)(再版)《语言文字应用》青年_11.png

0409下午(2)(再版)《语言文字应用》青年_12.png

5

专家简介
(按发言顺序排列)

图片.png

刘正江新疆大学党委常委、副校长,教授、博士生导师。新疆文化名家“天山英才”暨“四个一批”人才,国家语言文字推广基地(新疆大学)主任。兼任新疆维吾尔自治区名词术语译文规范化委员会委员、教材审读专家组成员、出版物审读专家组成员,《新疆大学学报(哲学社会科学版)》(维吾尔文、哈萨克文)编委会主任,新疆民汉语文翻译研究中心及教育部人文社科重点研究基地“西北少数民族研究中心”兼职研究员。长期从事语言安全、语言政策与规划、民族问题等领域研究,2025年入选教育部“国家语言文字关键领域领航计划”,担任“语言与国家安全”创新团队负责人。出版专著2部,主编出版新疆维吾尔自治区规划教材“高等院校中国少数民族语言文学专业(维吾尔语言)本科系列教材”;在《光明日报》《中国社会科学报》《新疆大学学报(哲学社会科学版)》等报刊发表学术论文50余篇;主持国家社会科学基金项目及省部级科研课题多项,其中国家重大委托项目1项;多份咨询要报获中央级及自治区主要领导批示。

图片.png

胡键同济大学当代中国马克思主义研究院副院长、长聘教授、博士生导师。主要从事全球化、全球治理、马克思主义与当代等研究,尤其擅长跨学科研究;兼任上海市社会科学普及研究会副会长;曾长期担任《社会科学》杂志社社长、总编;出版个人专著《中国式现代化的城市软实力建设》《“一带一路”倡议与提升中国文化软实力研究》《中国和平发展崛起进程中的软实力建设方略》《资本的全球治理》等10部;在《中国社会科学》《世界经济与政治》《世界社会科学》等重要刊物上发表论文170余篇,其中70余篇被《新华文摘》《中国社会科学文摘》、人大复印资料转载;主持了国家社科基金重点项目、后期资助项目、重大项目子课题,以及上海市社科规划项目等10余项。

梁晓波国防科技大学军政基础教育学院军事外语系教授、博士生导师。国务院政府特殊津贴专家,湖南省优秀青年社科专家,军队国防语言、军语建设、心理与认知域等领域专家,国防科技大学教学名师。主要从事国防语言、军事话语、国际传播和认知语言学的研究。主持国家社科基金重大项目等省部级项目10余项,出版著作等10余部,发表论文百余篇,获湖南省优秀社科成果一等奖。

图片.png

刘洪东山东大学外国语学院副院长、教授。文学博士,国家一流专业法语和法语语言文学学位点带头人,国际组织与全球治理新文科专业和国际组织与跨文化交流微专业负责人,外国语学院国别区域研究团队负责人,现任外国语学院副院长、教育部高等学校大学外语教学指导分委员会委员,英国谢菲尔德大学、比利时列日大学和法国雷恩政治学院访问学者,主要研究方向为法语教学法、语言政策与语言规划、法语国家与地区研究、国际化人才培养等。主持国家级和省部级研究等项目十余项,主编或参编国家级规划教材7册,主持开设慕课5门,出版著作4部,发表期刊论文和智库成果三十余篇,获得山东省教学成果奖特等奖和一等奖。

图片.png

马晓雷国防科技大学军政基础教育学院军事外语系主任、教授、博士生导师。北京外国语大学外国语言学及应用语言学博士。军队院校外语协作联席会委员、中国语文现代化学会-语言治理研究会常务理事、湖南省教学指导委员会委员、湖南省学位委员会学科评议组委员、湖南省翻译协会常务理事、国防科技大学学科领军人才培养对象、国防科技大学学术委员会专家库成员、国防科技大学首批青年拔尖人才培养对象。主要从事国防语言、军事语言技术、军事外语教育等领域研究。曾获湖南省社会科学成果一等奖、湖南省教学成果二等奖、三等奖。2010年获评北京市优秀博士学位论文,2011年获评全国优秀博士学位论文提名。立三等功1次。

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

吴奖时刻丨张民教授:这份荣誉属于所有为人工智能事业默默耕耘的奋斗者

2026年4月10日 09:00

徐惠 2026-04-10 09:00 江苏

张民团队获吴文俊AI科技进步特等奖,其NLP技术达国际领先且应用广泛。

转载自“中国人工智能学会”

吴文俊人工智能科学技术奖

2026年3月29日,第十五届吴文俊人工智能科学技术奖颁奖典礼在常州隆重举行,现场颁发了科技贡献奖、科技进步奖、自然科学奖、技术发明奖及青年科技奖等多个重磅奖项,全方位致敬在智能科技领域深耕细作、勇攀高峰的先行者们。今天,我们将走近2025年度吴文俊人工智能科技进步奖特等奖获奖项目——深度自然语言理解和生成关键技术及应用

PART.01

『项目简介』

【成果名称】深度自然语言理解和生成关键技术及应用

【完成人】张民,李俊涛,陈科海,余正涛,肖桐,户保田,刘学博,李正华,骆卫华,王超超,李军辉,张梅山,高盛祥,黄于欣,朱靖波

完成单位】哈尔滨工业大学(深圳),苏州大学,阿里巴巴达摩院(杭州)科技有限公司,昆明理工大学,智慧芽信息科技(苏州)有限公司,东北大学

【提名单位】哈尔滨工业大学(深圳)

第一完成人简介

张民教授

哈工大(深圳)特聘校长助理,计算与智能研究院院长,苏州大学未来科学与工程学院院长。ACL/AAIS  Fellow。国自然创新群体(A 类)首席科学家,国家杰青,“国家百千万人才工程”入选者,国家有突出贡献中青年专家,享受国务院政府特殊津贴。AFNLP 候任主席,ACL/SIGHAN 主席 (2020-2023)。研究方向包括自然语言处理、大模型、人工智能和 AI4SE。CSRankings NLP 领域个人和团队排名世界第一(2022-2026),Best Paper 5 篇(ACM MM 2022、COLING 2022 等)。提出以语言为核心的语言智能原生的人工智能新范式,团队自主研发“立知”Uni-MoE 全模态混合专家大模型,是国内高校唯一拥有完整自主知识产权、获网信办和工信部双认证的大模型,实现了大模型技术从“跟跑”,到“并跑”和“领跑”的跨越式发展。曾或现任 IEEE/ACM T-ASLP、CL、NLE、JCST、中国科学:信息科学、软件学报等 11 本国内外学术期刊编委和高级领域编委。

团队项目简介                   

团队风采

语言是知识的载体,文字是知识的固化,语言智能是人工智能的基石。项目团队几十年来聚焦语言智能研究,历经以语言学为基础的符号逻辑主义时代,以特征工程为核心的统计机器学习时代,以预训练和单一任务精调的深度学习时代,迎来了智能涌现的大模型时代。团队始终坚持“一个中心、两个基本点”的科学理念,即以“语言智能”为核心,以“语言结构与语义的深度理解”和“语义连贯与准确的高效可控生成”为基本点,提出了符号主义与连接主义有机融合、以语言为核心的语言智能原生的人工智能新范式,自主研发“立知”Uni-MoE 全模态混合专家大模型,攻克了多项智能建模技术难题。项目成果获多位诺贝尔奖得主、图灵奖得主 Geoffrey Hinton、Yoshua Bengio 和 OpenAI 创始人等国际顶尖学者引用和积极评价,经院士专家鉴定达国际领先水平,并成功应用于阿里巴巴等几十家企业,支撑产品进口替代、打破国外封锁,近三年创收超 160 亿元,技术年调用量逾 6000 亿次,服务全球 200 余个国家和地区的数十亿消费者,月活设备超 6 亿台。

PART.02

『获奖理由』

本项目由哈尔滨工业大学(深圳)牵头,联合苏州大学、阿里巴巴达摩院(杭州)科技有限公司、昆明理工大学、智慧芽信息科技(苏州)有限公司、东北大学六家主要完成单位,面向深度自然语言理解与生成这一人工智能核心领域,针对复杂语义理解、自然语言生成、跨领域适配等关键问题取得了突破性进展。主要技术创新包括:提出了复杂语言结构与深层语义的高精度理解方法,融合了多源符号知识的高效可控文本生成范式和混合专家驱动的垂直领域自适应框架,建立了深度语言理解新体系,实现了语义精准、一致连贯的文本生成,并增强了跨模态、跨领域的自适应能力。项目技术已在多个行业头部企业大规模落地应用,取得显著经济与社会效益,有力推动行业创新与技术进步。整体技术达到国际先进水平,产业应用成效突出,推广前景广阔。

中国人工智能学会副理事长赵春江院士为张民教授颁奖

获奖感言

能获此奖,莫大荣焉!我们深知,这份荣誉不仅是授予我们的,更是授予所有为人工智能事业默默耕耘的奋斗者,是对自然语言处理和“智能涌现”大模型时代的充分认可!

衷心感谢中国人工智能学会和吴文俊人工智能科学技术奖励委员会。吴先生等前辈们在新中国诞生之初百废待兴中开创中国人工智能研究之先河,励精图治,使中国成为唯一能和美国并跑的人工智能强国,中国人工智能学会成为中国最具权威性的人工智能学术组织。

人类社会已经进入人工智能时代,时代飞速发展,人类社会将被重塑,人类面临前所未有的挑战和机遇。让我们一起,抓住这一历史机遇,为实现我国人工智能科技自立自强、中华民族伟大复兴和全人类的人工智能事业快乐幸福地工作和生活!

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

江苏省修辞学会2026年年会暨第二届语言战略与话语修辞国际学术研讨会(三号通知)

2026年4月9日 09:01

徐惠 2026-04-09 09:01 江苏

苏大7月办修辞学国际研讨会,设青年优秀论文奖,5月31日截止报名。

转载自“江苏省修辞学会”


会议通知

为推动我国中西修辞学界的深度对话,探索在全球化和跨文化背景下修辞学发展的新路径、新范式,进一步深化语言战略与话语修辞研究,江苏省修辞学会拟于20267在苏州举办江苏省修辞学会2026年年会暨第二届语言战略与话语修辞国际学术研讨会。会议由江苏省修辞学会主办、苏州大学外国语学院承办、西交利物浦大学语言学院和苏州城市学院协办。会议主题为:中西修辞研究的交流互鉴。届时,大会将邀请国内外知名学者做主旨发言,并组织专题论坛。

一、会议主题

中西修辞研究的交流互鉴

主要议题

包括但不限于以下议题:

1)话语、修辞与社会变革

2)修辞学跨领域融合研究

3)中西修辞史研究

4)中西修辞教育研究

5)“修辞能力”研究

6)中西修辞范畴研究

7)中西修辞批评研究

8)修辞与传播研究

主旨发言专家(音序)

1)Angeliki Athanasiadou (希腊塞萨洛尼基亚里士多德大学教授)

2)Randy Harris (加拿大滑铁卢大学教授)

3)Mark Turner (美国凯斯西储大学学院教授)

4)皇甫素飞(淮阴师范学院教授)

5)鞠玉梅(齐鲁工业大学教授)

6)苗兴伟(北京师范大学教授)

7)束定芳 (上海外国语大学教授)

8)谭学纯 (福建师范大学教授)

9)袁影 (苏州大学教授)

10)祝克懿(复旦大学教授)

11)宗守云(上海师范大学教授)

主编论坛(音序)

1)方小兵(南京大学教授、《中国语言战略》主编)

2)高群(阜阳师范大学教授、《阜阳师范大学学报(社会科学版)》“修辞学论坛”主持人)

3)束定芳(上海外国语大学教授、《外国语》主编)

4)王军(苏州大学教授、Language and Semiotic Studies主编)

二、优秀论文奖

本次会议面向四十岁及以下的青年学者设置优秀论文奖,获奖者将颁发“王希杰修辞学奖”,并获得由袁氏奖励金赞助的奖金。申报参评者(包括青年教师、博士后、博士及硕士研究生)需成为江苏省修辞学会会员(填写会员申请表并发送至表中指定邮箱)(附件1)并提交论文全文及参会回执(附件2)。申报截至时间:2026531日。

提交邮箱:soochow2026@126.com

三、时间和地点

会议时间:

2026710日报到,711-12开会,712离会。

会议地点:

苏州大学(天赐庄校区)

四、会务

普通参会人员会务费为800/,全日制学生凭学生证减半。用餐由组委会统一安排,住宿与往返交通费用自理。

五、联系方式

会务邮箱:soochow2026@126.com

请有意参会者将参会回执(见附件)于2026531日前通过电子邮件发送至会务邮箱。论文摘要经专家评审合格后,会务组将发出正式邀请函。

江苏省修辞学会
苏州大学外国语学院

  202647

附件下载

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

重磅 | 教育部、国家语委规范《机器合成普通话水平测评等级标准及测评大纲》全文(附下载链接)

2026年4月8日 09:02

教育部、国家语委 2026-04-08 09:02 江苏

教育部、国家语委发布两项语言规范,明确机器合成普通话测评标准,全文可在官网下载。

近日,教育部、国家语言文字工作委员会正式发布两项语言文字规范:《机器合成普通话水平测评等级标准及测评大纲》和《人工智能 语料库 基础术语》,标志着我国在人工智能语音技术与语言规范融合发展方面迈出关键一步。

其中,《机器合成普通话水平测评等级标准及测评大纲》规定了机器合成普通话水平的等级标准和测评大纲,适用于机器合成语音的普通话水平测评,可用于技术研发、产品优化及应用评价。该规范首次从国家规范层面对相关测评体系进行了系统构建,对推动智能语音技术高质量发展具有重要意义。

规范全文现已在教育部官网发布,可通过以下链接获取:

http://www.moe.gov.cn/jyb_sjzl/ziliao/A19/202604/t20260407_1433014.html

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

重磅 | 教育部、国家语委规范《人工智能 语料库 基础术语》全文(附下载链接)

2026年4月8日 09:02

教育部、国家语委 2026-04-08 09:02 江苏

教育部、国家语委发布语料库术语规范,统一界定概念,全文可在官网下载查阅。

近日,教育部、国家语言文字工作委员会正式发布两项语言文字规范:《机器合成普通话水平测评等级标准及测评大纲》和《人工智能 语料库 基础术语》,标志着我国在人工智能语音技术与语言规范融合发展方面迈出关键一步。

其中,《人工智能 语料库 基础术语》聚焦语料库领域的基础概念与核心术语,对相关术语的定义、内涵及使用范围进行了系统规范,旨在解决当前语料库建设与应用中术语使用不统一、概念界定不清等问题。该标准面向人工智能语料资源建设与应用需求,构建统一、规范、可复用的术语体系,是语料工程领域的重要基础性规范。

标准全文现已在教育部官网发布,可通过以下链接获取:

http://www.moe.gov.cn/jyb_sjzl/ziliao/A19/202604/t20260407_1433016.html

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

徐永明 | 明代文学文献的数字化、结构化和智能化

2026年4月7日 09:01

徐惠 2026-04-07 09:01 江西

文章围绕明代文学文献,阐述其数字化、结构化与智能化的现状、实践及意义。

转载自《中国韵文学刊》2025年第4期

明代文学文献的数字化、结构化和智能化

徐永明

【作者简介】

徐永明(1967—),男,浙江遂昌人,浙江大学文学院教授,研究方向为明代文学、数字人文。

摘要

明代文学文献的数量在1万种以上,然而影像数字化和文本数字化的工作依然任重道远。在大数据和人工智能时代,文本的结构化和智能化也提上了日程。结构化的数据,可以计量统计、定位查询及可视化呈现,同时,结构化的数据与文本结合,可以进行数据关联,为文本的阅读扫除障碍。AI通用大模型的引入,可以与专业数据结合,提升知识问答的准确率,激活学者的研究成果,而AI创意视频与古代文学的结合,则大大加强了古籍的活化利用,提高了学生学习古代文学的兴趣,促进了传统文化的普及和传播。

关键词:明代;文学文献;数字化;结构化;智能化;AI

在数字化时代,人们常见的文献形态,有纸质文献、金石文献、数字文献等样式。其中数字文献,又有影像数字文献、文本数字文献、结构化数据、智能数据等。基于芯片的数字文献,在算力、算法、模型等的加持下,在我们的学习和生活中,产生了越来越重要的影响。我们的祖先,给我们留下了浩如烟海的历史典籍,如何有计划地将这些典籍数字化、结构化和智能化,是我们这一代乃至几代人的历史使命。下面,笔者就明代文学文献的数字化、结构化和智能化谈点个人的观察和实践。

一  明代文学文献的数字化

根据《中国古籍总目·集部》的著录,明代楚辞、别集、总集、词集、诗文评及戏曲的著述有9600余种,如果再加上《中国古籍总目·子部》“小说类”1000余种的著述,则明代文学文献的数量有1万余种。当然,这不是明代文学文献的全部,因为《中国古籍总目》主要是几个大馆的联合目录,不能真正反映明代文学文献的全貌。国家后来启动的“全国古籍普查”项目已告一段落,各馆的古籍登记目录在陆续出版中。古籍普查结果显示,现存古籍总数为20余万种,比《中国古籍总目》的17余万种,多出3万余种。就明代文学文献来说,估计数量会有些增加,但总数应在15000种以内。 

根据国家图书馆原馆长张志清的说法,截至2025年,国图网站发布的数字化影像古籍大约有13万部。如以现存20余万种古籍平均3个版本计算,则古籍的实体总数为60多万部。13万部与60余万部的比例,大约为1/5。具体的影像数字化古籍的查询,可以访问“中国古典文献资源导航系统”(https://www.wenxianxue.cn/top.html?type=art),这个平台汇集了全球几乎所有图书馆、出版社、公司及个人的古籍影像数据库网址,分门别类,可以自由切换摆渡。此外,平台的建设者唐宸副教授还建立了“全球汉籍影像开放集成系统”,挂在首页。该系统提供书名和作者的一键式查询,其结果可以直接登录浏览,为学者的研究提供了极大的便利。

明代文学文献的文本数字化,在智能的OCR软件出来之前,主要是一些公司提供的产品,如北京爱如生数字化技术研究中心制作的“中国基本古籍库”软件有明别集785种,香港迪志文化出版有限公司制作的文渊阁“四库全书”有明别集239种。北京鼎秀科技有限公司开发的“鼎秀”数据库有明别集636种。由于机器学习和人工智能的出现,古籍版刻体字识别的瓶颈被突破,书同文、阿里、古联、如是、龙泉寺、汉王、字节跳动等公司和机构,纷纷推出了各自训练的古籍智能OCR软件,准确率均在95%以上。于是,古籍的文本数字化进入了快车道。按照现在的算力,如开足马力,13万种图像古籍,可以在短短的几年内文本数字化。不过,再智能的OCR软件,也不可能做到100%的准确率。人工校对,依然需要投入大量的人力和财力,不是短时间内能够完成的。

在智能的OCR软件出现的同时,也出现了智能的古籍标点软件,其准确率也达到了95%以上,一些高校和大公司都有自己开发的古籍标点软件。由于智能的OCR软件、智能的标点软件,加上众包技术的出现,古籍的整理,开始了规模化和工程化作业的模式。如文旅部自2024年开始,每年投入近1.5亿元给各省公共图书馆进行古籍数字化(影像和文本数字化)。图书馆作为收藏单位,本身没有能力承担古籍影像数字化和文本数字化的项目,于是采取招标的方式,由公司投标进行古籍的数字化项目。而国家图书馆作为牵头单位,建立一个中华古籍智慧化服务平台(https://guji.nlc.cn/),各馆数字化的古籍,均提交到这个平台来发布。

除了文旅部下属公共图书馆大规模的古籍数字化外,一些高校和公司利用众包技术,召集高校师生和专业校对机构进行古籍文本数字化的项目。如北京大学王军团队与字节跳动合作,建立了识典古籍平台(https://www.shidianguji.com/)。温州大学侯荣川团队和中华书局古联公司合作,进行明代别集的文本数字化工作。据古联公司总编辑朱翠萍介绍,明代别集的文本数字化,目前已完成600余种。浙江大学徐永明团队建立了“智慧古籍平台”(https://csab.zju.edu.cn),主要也是以整理明代别集为主。与前两者不同的是,该平台更多地侧重智能的呈现和利用。如文本要进行标点和审核,内容要进行标引和标注,人物有行迹图、世系图和社会关系图,大模型可以对文本进行翻译和赏析等(详见下文介绍)。目前已发布200余部明别集数据。

从上述的分析来看,明代文学文献的影像数字化虽然距离全部完成还有较长的路要走,但随着国家古籍数字化专项资金的持续投入,我们有信心看到,前方的终点会变得越来越清晰。明代文学文献的文本数字化,情况有些复杂,因为影像有版刻字体,有草书、行书等手写字体。如果是版刻字体,那有多少影像,就可以几乎同时得到多少未经校对的文本。不要标点的校对,可能需要一代或两代人的努力才能完成;高质量标点的校对,那可能需要数代人的努力才能完成。

二  明代文学文献的结构化

所谓结构化,就是将数据以表格的方式组织和呈现。表格,小的有Excel、Access,大的,可以是SQL Server、MySQL、Oracle等,甚至可以是标记过的text 文本。与非结构化的数据相比,结构化数据有以下几大好处。一是可以计量统计。如我们已经有了《全宋文》作家分字段的数据表,那么,我们可以利用表格中的函数(如数据透视)一键统计出各省或各县作家的人数。二是可以批量匹配。如果我们手头有两张表,一张是人物著作表,一张是人物籍贯表,那么,利用表格中的函数(如VLookup)可以生成一张带有籍贯的人物著作表。三是可以可视化。如可以将统计的结果生成柱状图、饼状图。四是可以进行空间分析。如通过不同时代的人物籍贯表,可以分析人物的分布情况及版图的变化情况。五是可以进行社会网络分析。如著录了亲属关系和社会关系的表格,就可以利用Pajk、Gephi等软件进行可视化呈现,从边和点对人物的交往亲疏和影响力进行分析。六是结构化的数据可以为语言大模型提供数据增强检索和分析,提高问答的准确率。

结构化数据的种类很多,如有人物、地名、名物、时间、职官、科举、图像、书目、篇目等。在数字技术出现以前,人们其实已经做了很多有关结构化的工作,我们可以称之为准结构化文献。如正史中的人物传记、地理志书、各类辞典等,都是带有结构化特征的文献。就明代来说,准结构化的数据,人物类如《明史》中的人物列传、《国朝献征录》(焦竑)、《明人传记资料索引》、《明人室名别称字号索引》、《明遗民传记索引》、《中国文学家大辞典》(李时人,明代卷)、《明代名人传》(英文)、《明人碑传索引》(汤志波,十四册)等;地理类如《明史》中的地理志、《大明一统志》、《天下水陆路程》(明黄汴)、《客商一览醒迷》(明李晋德)、《大明一统志》等;职官类如《明史·职官志》、《明代职官年表》、《明代职官中英辞典》(张颖等);科举类如《明清进士录》、《明清进士题名碑录索引》、《明代登科总录》(二十五册)等;年代类如《明人年谱知见录》(李佳琪,志传)、各类明人年谱等;书目类如《千顷堂书目》、《明史·艺文志》、《明代传奇全目》(傅惜华)、《明代杂剧全目》(傅惜华)、《明别集版本志》、《明别集整理总目》(汤志波)、《明人别集经眼叙录》(徐永明、赵素文)、《台湾藏稀见明别集总目提要》(李玉宝)等;篇目类如《20世纪中国古代文学研究文献总目·明代论文卷》(曹鑫)等。

然而,准结构化数据毕竟不等于数据库。如就人物辞典来说,其主要的构成是人名的词条加上小传。而人物数据库,则有人名、字号、朝代、生卒年、籍贯、经纬度、仕履、著述、亲属关系、社会关系等不同字段的信息,而且,一个人物数据库,可以是各种不同表格组合构成的关系型数据库。譬如,哈佛大学与北京大学、台湾“中央研究院”联合开发的中国历代人物传记资料库(CBDB)就是一个关系型数据库,该数据库迄今已收入了65万人物,其中明代人物为222194人(截至2025年6月11日)[该数据为CBDB项目经理王宏甦提供。]

图1中国历代人物传记资料库人物数据统计表

CBDB数据库,可以实现过去准结构化辞典不能实现的功能。如统计女性的死亡年龄、中进士或中举人的年龄、男女的婚配年龄等。因为是对群体人物的研究,故有所谓“群体传记学”之说。数据库可以多条件查询人物信息,如某地某时的官员任职情况。这个在纸本时代,即便有工具书,也是不易查找的。此外,CBDB的人物籍贯地理信息、亲属关系、社会关系信息,在查出结果后,可以保存为地理信息或社会关系的格式,用专门的软件进行可视化的呈现和分析。

现代意义的结构化数据,除了CBDB外,与明代有关的尚有哈佛大学与复旦大学史地所合作建的“中国地理信息平台”(CHGIS)、哈佛大学的“世界地图平台”(Worldmap)、浙江大学的“学术地图发布平台”(http://amap.zju.edu.cn) 、浙江大学建立的“智慧古籍平台”(https://csab.zju.edu.cn) 发布的数据。CHGIS是数字人文的基础设施平台,里面包含了历代地名所属的行政区域、地名的经纬度等信息。Worldmap是应用地图,发布过“明代卫所分布”及“明代驿站路线图”等。

浙江大学的“学术地图发布平台”发布的地图有两类,一是人物行迹图,一是分布图。就明代的人物行迹来说,目前发布的主要有张以宁、危素、宋濂、陶宗仪、戴良、刘基、杨基、张羽、徐贲、胡奎、高启、瞿佑、杨士奇、解缙、于谦、沈周、陈献章、李东阳、王鏊、杨一清、祝允明、湛若水、王九思、唐寅、文徵明、王阳明、刘节、李梦阳、王廷相、康海、边贡、陆深、严嵩、夏言、何景明、杨慎、李濂、木公、李元阳、李开先、徐阶、吴承恩、归有光、唐顺之、王慎中、冯惟敏、茅坤、李攀龙、海瑞、沈明臣、梁辰鱼、徐渭、吴国伦、张居正、汪道昆、王世贞、李贽、沈一贯、焦竑、顾大典、屠隆、孙鑛、陈与郊、梅鼎祚、汤显祖、臧懋循、胡应麟、沈璟、冯琦、叶向高、袁宗道、徐复祚、徐光启、叶宪祖、谢肇淛、袁宏道、袁中道、钟惺、曹学佺、冯梦龙、冯梦熊、王思任、刘宗周、凌濛初、钱谦益、文震亨、苍雪、叶绍袁、徐霞客、担当、吴炳、张岱、张溥、陈子龙等人。有关明代的分布图,有《中国文学家大辞典》(明代卷)分布图、明代布政使司任职名单定位查询、明代山东散曲家地域分布图等。

浙江大学建立的“智慧古籍平台”目前主要以整理明代文学文献为主。平台发布的著述,不仅篇目独立成结构化的数据,进行了文体分类,而且对文章的地域关系进行了标注,形成可按行政区查询的结构化数据。此外,人物还有世系图、社会关系图。世系图主要的人物有杨维祯(1296)[括号内为人物生年,下同。]、张以宁(1301)、宋濂(1310)、刘基(1311)、章溢(1314)、胡深(1314)、陶宗仪(1320)、王袆(1322)、高启(1336)、方孝孺(1357)、杨士奇(1365)、夏原吉(1366)、胡广(1370)、薛瑄(1389)、商辂(1414)、姚夔(大章)(1415)、谢一夔(1425)、刘健(1433)、李东阳(1447)、杨廷和(1459)、席书(1461)、唐寅(1470)、文徵明(1470)、王守仁(1472)、康海(1475)、徐祯卿(1479)、严嵩(1480)、夏言(1482)、何景明(1483)、杨慎(1488)、韩邦靖(1488)、许宗鲁(1490)、归有光(1507)、海瑞(1514)、李攀龙(1514)、徐中行(1517)、梁辰鱼(1520)、徐渭(1521)、袁尊尼(1524)、张居正(1525)、王世贞(1526)、王穉登(1535)、焦竑(1540)、孙鑛(1542)、屠隆(1543)、邹迪光(1550)、汤显祖(1550)、胡应麟(1551)、袁宏道(1568)、冯梦龙(1574)、钟惺(1574)、钱谦益(1582)、叶绍袁(1589)等。

社会关系图主要有宋濂(1310)、刘基(1311)、陶宗仪(1320)、王袆(1322)、方孝孺(1357)、虞谦(1366)、商辂(1414)、李东阳(1447)、王鏊(1450)、杨一清(1454)、祝允明(1461)、文徵明(1470)、李梦阳(1473)、顾璘(1476)、张含(1479)、徐祯卿(1479)、严嵩(1480)、何景明(1483)、韩邦靖(1488)、苏祐(1493)、李开先(1502)、田汝成(1502)、王慎中(1509)、李攀龙(1514)、徐中行(1517)、梁辰鱼(1520)、张居正(1525)、汪道昆(1526)、王世贞(1526)、李贽(1527)、戚继光(1528)、杨时乔(1531)、孙鑛(1542)、屠隆(1543)、臧懋循(1550)、汤显祖(1550)、董其昌(1555)、叶向高(1559)、冯梦龙(1574)、钟惺(1574)、凌濛初(1580)、钱谦益(1582)、倪元璐(1593)、宋征舆(1617)、董说(1620)等。

从目前结构化数据来看,明代的数据主要还集中在地名、人名方面。从今后的发展来看,要建设明代结构化数据的任务还很重。如人物的行迹数据,现在主要还局限于比较有名望的人物,而二、三流的人物行迹数据,还有待今后来建设。此外,明代人物的日记、年谱,也有待结构化。就地名来说,CHGIS主要还是省府县三级的数据,大量地方志中县级以下的地名需要结构化。就图像来说,明代文献中的图像标注还没有真正启动。

三  明代文学文献的智能化

数字技术的发展,为明代文学文献的智能化提供了可能。那么,现代的数字技术能使明代文学文献达到怎样程度的智能呢?能为我们的学术研究提供怎样的便利呢?根据笔者的认知和实践,数字技术可以在以下几个方面使文献智能化。

其一,数据生产的智能化。智能OCR、智能标点、智能标引使古籍的整理时间大大缩短,极大地提高了古籍整理的效率,并大幅度降低整理的成本。可以说,古籍整理90%以上的工作可以让机器替代,人工只要负责10%的工作量。此外,线上众包技术让众多的文史爱好者参与其中,分工合作,使得纸本时代单一作业的模式变为集体作业的模式,改变了传统古籍整理的方式,建立了全新的古籍整理范式。目前,古联科技公司、“识典古籍平台”、“智慧古籍平台”均采用了线上众包作业的模式。由于是众包作业,每个人完成的工作量都有记录,且有排行榜,有利于结算酬劳。如果有国家的经费支持,可以解决文科生的就业问题。

其二,数据呈现的智能化。就“智慧古籍平台”来说,发布在前台的文本,由于经过标引,文本数据与后台的工具书产生了关联。这样,文本的地名可以定位,人名、词语、职官、时间等实体均有工具书的关联和解释。一般的阅读障碍就基本消除了。平台引入语言大模型后,古诗文还可以今译、英译,还可以赏析。这对于传统文化的传播,起到了极大的推广作用。此外,人物的行迹图、世系图和社会关系图,又加深了读者对人物的了解。兹就地名的定位举一例说明。刘基曾写过一首《稽句岭》的诗。诗云:“白日隐岩嶅,千崖气势豪。溪流婺女阔,山入少微高。危石天敧侧,长风谷怒号。干戈方自此,行役敢辞劳!”[1](卷八)刘基的这首诗,描写的是他返乡或奉命赴任途中,经由此岭,触景生情,描绘了稽勾岭一带险峻壮丽的自然山川,抒发了诗人身处乱世、肩负使命的豪情与责任感。按:稽句岭,即稽勾岭,今名金钩岭,是丽水至武义稽勾古道上的一个要冲,在武义境内。《栝苍汇纪》:“由寿玄而北百里为稽勾山岭,曰稽勾岭,崔嵬盘绕亘二十余里。”[2](卷七)由于智慧古籍平台对稽句岭作了标引,在后台添加了经纬度,因此,阅读此诗时,就可以精确定位。这样,对诗歌的理解就有了地理空间的认知。

其三,数据问答的智能化。大语言模型的出现,使得人机交互成为人们学习和工作不可或缺的工具。浙江大学文学院数字人文中心与杭州云四库科技有限公司联合开发了文史垂类模型——云四库智能问答系统(https://www.aiyskqa.cn) 。该系统基于杭州深度求索公司的DeepSeek R1、DeepSeek V3和阿里通义千问的Qwen72B、Qwen-QwQ、 Qwen3-235B、Qwen Plus 、Qwen 2.5-max等通用大模型为底座进行数据增强。目前已投喂古籍、研究著作及论文共二百多亿字的数据,能较好地回答各类文史问题。譬如,我们问一个“杨维祯为什么被称为文妖”的问题,机器给予了如下的回答:

杨维祯被称为“文妖”,这一称号源于其独特的文学风格与当时主流文学观念之间的冲突。以下从多个角度对这一称号的由来及意义进行分析:

一、杨维祯文学风格的“怪异”与“奇谲”

杨维祯(号铁崖)是元末明初的重要文学家,他所创作的“铁崖体”诗文以奇诡、放纵、夸张、浪漫为主要特色。他不拘泥于传统格律,敢于突破形式的束缚,融合古乐府、民歌、戏曲等元素,形成了极具个性的风格。这种风格在内容上也表现出对个性自由的追求,甚至在某些诗作中流露出对传统道德观念的反叛。例如,他的一些艳情诗大胆描写情感与欲望,这种表现方式在当时理学盛行、讲究“雅正”的语境中显得格格不入。

二、王彝的《文妖》批评

明代文人王彝在其《文妖》一文中,对杨维祯的文风进行了严厉批评。他将杨维祯比作“狐妖”,指出其文章“以淫辞怪语,裂仁义,反名实,浊乱先圣之道”,并批评其文风“柔曼倾衍,黛绿朱白”,具有“妖媚惑众”的力量。王彝认为,这种文风不仅偏离了儒家正统思想,还具有蛊惑人心、影响青年的危险性,因此称之为“文妖”。

三、“文妖”称号的多重含义

“文妖”这一称号并非仅指杨维祯文风的怪诞或形式上的奇诡,更深层地反映了其文学思想与当时主流意识形态之间的冲突。在王彝等理学派文人看来,杨维祯的创作不仅形式上不守规矩,内容上也挑战了儒家伦理,是对“文以载道”传统观念的背离。因此,“文妖”不仅是对其风格的形容,更是一种道德与思想上的批判。

四、后世对“文妖”称号的再评价

尽管杨维祯在当时受到如王彝等人的严厉批评,但后世学者如胡应麟等人却对其才情给予了高度评价。胡应麟认为杨维祯的艳情诗“才情缥缈,独步当代”,其诗风“超异神俊,追踪谪仙”,甚至将其与李白、温庭筠、李贺等古代名家相提并论。这说明,随着时代观念的变迁,“文妖”这一称号逐渐被赋予了另一种解读——它成为对杨维祯文学个性与创新精神的肯定。

五、结语

综上所述,杨维祯之所以被称为“文妖”,主要源于其文学风格的奇谲怪异、内容上的个性张扬,以及与当时儒家正统文学观念的冲突。这一称号既包含了对其文学创新的否定性批评,也折射出当时文化语境中对“异端”文学的排斥。然而,从文学史的发展来看,这种“妖”的标签恰恰体现了杨维祯作为一位文学革新者的独特价值。

机器注明了大模型使用了Qwen-72B,并注明了文献来源,分别有《古代文学理论研究丛刊》(第二辑)、邱江宁撰《元代文人群体的地理分布与文学格局研究》、孙小力《杨维祯在嘉定的活动及其影响考论》、《元明清诗鉴赏辞典》、廖可斌《压抑与躁动——明代文学论集》、《明代文学思潮史》、《明代文学复古运动》。应该说,这样的回答基本是符合实际的。

上述的例子,仅仅是云四库一个应用案例。实际上,云四库的功能远不止于止,限于篇幅,此处不再展开。“智慧古籍平台”接入了云四库智能问答系统,因此,不仅“智慧古籍平台”上的诗文能今译、英译及赏析,而且还随时可以跳转到云四库智能问答系统进行人机交互问答,这样的便利是纸本时代不可想象的。

其四,AI创意与古籍的活化利用。我们除了利用语言大模型进行知识的智能问答外,还可以利用大模型文生图、文生视频的功能进行古籍AI视频创作。这是一个崭新的天地,能够极大地促进古籍的活化利用,调动学生学习古文的积极性。大语言模型刚推出的时候,央视就推出国内首部AI全流程微短剧《中国神话》。 智慧古籍平台发布了多个刘基《郁离子》的AI创意视频,附在相应的文本之后。

图2  用AI制作的相马图

千里马 绀鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马 绀羽鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马 规执政 https://abm.zju.edu.cn/share.html?id=h9Ax4reHR&type=vod

千里马 良桐 https://abm.zju.edu.cn/share.html?id=M4ziI9eHR&type=vod

千里马 乱几 https://abm.zju.edu.cn/share.html?id=FFPWS96Hg&type=vod

千里马 戚之次且 https://abm.zju.edu.cn/share.html?id=SddVSreNg&type=vod

千里马 巫鬼  https://abm.zju.edu.cn/share.html?id=WJKIS96NR&type=vod

千里马 献马 https://abm.zju.edu.cn/share.html?id=MZzHS96Hg&type=vod

千里马 燕王好乌 https://abm.zju.edu.cn/share.html?id=za9NS96Ng&type=vod

千里马 养枭 https://abm.zju.edu.cn/share.html?id=mK1DI9eHR&type=vod

千里马 忧时 https://abm.zju.edu.cn/share.html?id=BkAOS96NR&type=vod

鲁般 萤与烛 https://abm.zju.edu.cn/share.html?id=4eeBN9eHg&type=vod

鲁般 东都旱 https://abm.zju.edu.cn/share.html?id=TYNLN9eHg&type=vod

鲁般 https://abm.zju.edu.cn/share.html?id=RCALHr6HR&type=vod

鲁般 九尾狐 https://abm.zju.edu.cn/share.html?id=ce_LNreHR&type=vod

我们还可以将这一应用进行广泛推广。譬如,明代诗文、小说、戏曲均可以用AI进行短视频的创作,从而激发学生学习古代文学的兴趣,推动古代文化的普及和传播。

需要指出的是,不论哪一款大语言模型,DeepSeek也好,通义千问也好,都不能解决古文深度语义交互的问题。譬如,我们要问机器关于明代乐府诗的成就和特点,机器只会根据现在的研究材料来回答这个问题,而不能从明代作家所有原典文献中去查询分析来回答。假如机器能根据提供的古书,通过检索和分析,回答提问者任何问题,那么,我们可以说,古籍的智能化真的是到达了一种理想的状态。

四  余论

从上面的叙述中我们可以看到,明代文学文献的数字化、结构化和智能化,是一个漫长且极有意义的系统工程。所谓漫长,是因为明代文学文献的体量过于浩大,即便是先进的技术能帮助解决90%以上的工作量,但依然有大量的工作需要人力来完成,这需要几代人的努力。所谓有意义,一是能提高人们的工作效率,促进学术的研究向纵深的方向发展;二是借助数字技术和优质数据,有利于文化的普及和传播;三是可以激活学者的研究成果,使高冷的学术研究成果走向社会,服务大众;四是发挥数据在人工智能时代的要素作用,使其成为推动社会发展的新质生产力。

参考文献

[1]刘基.诚意伯刘先生文集[M].明成化六年(1470)戴用、张僖刻本.

[2]熊子臣,何镗.栝苍汇纪[M]//四库全书存目丛书:193册.济南:齐鲁书社,1996.

此文原载于《中国韵文学刊》2025年第4期。

原创内容如需转载,须经本刊编辑部授权。

订阅·投稿·查询

1. 点文章标题下的“中国韵文学刊”进行订阅,或扫码下方二维码订阅,或直接搜微信公共帐号:中国韵文学刊。

2. 投稿网站:https://YWXB.cbpt.cnki.net/

投稿邮箱:yunwenxuekan@163.com

3. 关注后输入关键字可浏览过刊目录及部分文章,如查询2014年第1期,输入“201401”即可浏览。本刊为季刊,一年四期。

《中国韵文学刊》

长按左侧二维码识别即可关注

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

AAAI 2026 论文:从语言神经元视角理解多语言对齐如何增强大模型能力

2026年4月6日 10:50

张世茂 2026-04-06 10:50 江西

分享一篇文章

南大NLP: AAAI 2026 论文:从语言神经元视角理解多语言对齐如何增强大模型能力

南大NLP组2026论文:从语言神经元视角理解多语言对齐如何增强大模型能力

【该工作由南京大学自然语言处理组与微软亚洲研究院合作完成,论文入选AAAI2026Oral。扩展版论文链接:https://arxiv.org/abs/2505.21505,代码:https://github.com/NJUNLP/Language-Neurons-Alignment】

01

研究动机

大型语言模型在多语言场景下已经展现出较强的整体能力,但由于预训练语料在不同语言之间分布不均衡,高资源语言与低资源语言之间仍存在显著性能差距。鉴于低资源语言的数据本身难以获取、难以支撑额外的大规模预训练,如何在现有模型基础上提升其能力成为实际需求。在这一背景下,多语言对齐(Multilingual Alignment)作为一种更具可操作性的途径,为增强低资源语言的推理表现提供了有效方向。

目前,多语言对齐方法的效果已在多项任务中得到验证,然而一个关键问题始终缺乏系统性解释:多语言对齐为什么有效?它在模型内部究竟改变了哪些结构与表征方式?为回答这一问题,近期研究开始尝试从神经元粒度理解多语言能力来源。现有主流划分通常将与语言相关的神经元分为两类:一类仅在某一种或极少数语言上表现出较高激活,被称为语言特定神经元(language-specific);另一类在所有语言中均保持较强激活,被视为通用神经元(general)。这一二元框架为分析多语言能力提供了初步结构化视角,但在实际统计中,如图所示,仍存在无法被准确归类的激活模式:有相当数量的神经元会在多种语言上频繁激活,却并未在所有语言中保持一致作用:在现有体系下,它们通常被笼统归入语言特定,但其跨多语言的激活特征又与真正意义上的语言特定神经元并不一致。这一现象提示,要深入理解多语言对齐的内部机制,仅依赖“语言特定—通用”的二元划分可能不足,亟需更精细的描述与分析框架。

1:某神经元在不同语言上激活概率的示例

02

方法:语言神经元的三元分类法与识别算法

2.1 三类语言神经元的划分与定义

结合激活概率统计,我们重新整理并扩展了语言神经元的定义体系:

  • 语言特定神经元: 只在某一种语言上具有高激活概率,对其他语言激活很弱。它们主要承担该语言特有的输入 / 输出形式的编码与解码。

  • 语言相关神经元: 在多种但非全部语言中保持高激活,用来刻画跨若干语言共享的结构与模式。(这是重点刻画的“中间层次”类别,也是以往工作容易混入语言特定的部分)

  • 通用神经元: 在所有语言上都具有较高激活,更多与任务相关的通用知识和推理模式有关,而不是绑定于某一种语言。

2.2 神经元识别算法

仅根据在哪些语言上出现激活难以准确判断神经元的功能,我们更关心其是否真实参与多语言推理过程,而非在与任务无关的文本上偶然被激活。为此,我们在语言维度上引入两个核心指标:

(1)激活概率分布的熵: 用于衡量神经元在不同语言间的激活偏好,即语言特异性

(2)跨语言的最大激活概率: 用于衡量神经元在至少某些语言上是否具有足够高的激活强度,即有效性

我们将两项指标整合为统一评分体系,对所有神经元进行排序:

从而同时过滤掉激活弱、语言偏好不明显的神经元,以及“看似特化但实际不参与推理”的神经元

在此基础上,我们取语言数量 N=10,根据神经元激活概率超过阈值的语言数量完成最终分类:

  • 仅在 1 种语言上高激活 → 语言特定

  • 在 2–9 种语言上高激活 → 语言相关

  • 在全部 10 种语言上高激活 → 通用

需要强调的是,我们在多语言数学推理数据集(MGSM、MSVAMP)的模型回答生成过程中统计激活,而非在一般多语言文本上,确保识别到的神经元确实与多语言推理能力相关。

03

实验设置

为在可控成本下系统分析多语言对齐前后的神经元变化,我们选择两种 7B 规模的开源数学推理模型作为研究对象:

  • MistralMathOctopus-7B

  • MetaMathOctopus-7B

两者均在多步数学推理数据上进行过微调,适合作为研究多语言推理能力及其内部结构变化的基座模型。

在任务设置方面,我们使用两个具有代表性的多语言数学推理基准:

  • MGSM:经典的多语言数学推理评测集,用于主要实验结果以及神经元激活统计;

  • MSVAMP:分布与 MGSM 不同的 out-of-domain 数据集,用于验证分析结论的泛化能力。

覆盖十种语言:英语(en)、中文(zh)、俄语(ru)、德语(de)、法语(fr)、西班牙语(es)、日语(ja)、斯瓦希里语(sw)、泰语(th)和孟加拉语(bn)。其中英语作为中枢语言,用于构造对齐信号。

在对齐方法上,我们采用 MAPO 框架 (Multilingual-Alignment-as-Preference Optimization) 中基于 DPO 的变体来实现多语言对齐,具体包括:

  • 利用多语言算术推理数据构造偏好对;

  • 使用多语言翻译模型将非英语回答翻译回英语,并计算其与英语回答之间的一致性;

  • 将该一致性作为偏好优化中的奖励信号,对模型进行对齐训练。

对齐前后,我们分别统计模型在多语言推理生成过程中的神经元激活概率分布,比较三类神经元对齐前后的数量变化及其在不同层的分布差异,以分析对齐对模型内部结构的影响。

04

主要发现:多语言对齐如何改变模型内部结构

4.1 神经元失活实验

基于前述识别方法,我们在 base 模型中识别三类神经元,并通过 Accuracy 和 Perplexity 消融实验检验它们在多语言推理中的作用,如图所示:

2:失活基于MistralMathOctopusMGSM得到的不同种类神经元后的模型准确率

3:失活基于MistralMathOctopusMGSM得到的不同种类神经元后的模型困惑度

  • 禁用某语言的语言特定神经元会降低该语言的回答准确率,并提升该语言 PPL,表明模型在该语言上依赖其语言特定神经元;

  • 在此基础上,若进一步禁用该语言的语言相关神经元(即同时禁用 language-specific 与 language-related),模型性能进一步下降,且 PPL 上升幅度更大,说明语言相关神经元在多语言推理中同样起到关键作用;

  • 禁用某语言的语言相关神经元对其他语言的性能影响相对较小,表明这些神经元在多个语言之间呈“分散共享”结构,而非被单一语言强依赖;

  • 当同时禁用某语言对应的语言特定、语言相关及通用神经元时,不仅该语言性能显著下降,其他语言性能亦受到明显影响,说明通用神经元承载跨语言共享的推理能力。

这些结果表明:某语言的推理能力同时依赖语言特定语言相关神经元,而语言相关神经元在多语言之间形成“局部共享”的支撑结构,是连接多种语言的重要桥梁。

4.2 四阶段多语言推理流程

在识别出语言特定、语言相关和通用三类神经元后,我们进一步分析了它们在模型各层的数量分布情况。结果显示,这三类神经元在深度方向上呈现出结构化的变化模式,如图所示,据此可将大模型的多语言推理过程概括为以下四个阶段:

4:不同种类神经元的层级别分布

(1)多语言理解

在模型的底部若干层中,语言特定与语言相关神经元数量同时处于较高水平,而通用神经元相对较少。该阶段主要负责将不同语言的输入映射到统一或相近的语义空间,为后续的语言无关推理奠定基础。

(2)共享语义空间推理

在中间层区域,通用神经元占据主要位置,而语言特定 与语言相关神经元的数量显著减少。模型在此阶段主要执行与语言无关的推理与计算,不同语言共用相同的推理结构。

(3)多语言输出空间转换

接近输出端的若干层中,语言特定与语言相关神经元数量再次明显上升,而通用神经元数量下降至较低水平。该阶段的功能是将共享语义表示重新投射到各目标语言的输出空间中,恢复语言间的结构差异。

(4)词汇空间输出

在最终输出层,三类神经元的数量分布再次出现特征性变化:

  • 语言特定神经元在该层达到数量峰值,强调其在目标语言词汇选择中的重要作用

  • 语言相关神经元数量则呈下降趋势,与上一阶段形成对比,表明跨语言共享结构在词汇级生成中的作用相对减弱

  • 通用神经元数量重新回升,与输入层的分布较为一致,可能与模型依赖共享词表和通用知识来完成最终输出有关

这一四阶段框架体现了不同类型神经元在模型内部的分层组织关系,相比现有对多语言推理的粗粒度描述,更系统地揭示了模型内部表征从输入到最终输出的转换机制。

4.3 多语言对齐的影响

在明确 base 模型的层级结构后,我们进一步比较了对齐前后三类神经元在不同层次的数量变化,如图所示。

5:对齐后不同种类神经元的层级别变化

分析显示,多语言对齐并不仅是对输出分布的调整,而是在模型内部引发了系统性的结构重组,主要体现在以下方面:

(1)输入阶段:更依赖语言敏感结构

多语言理解阶段,语言特定与语言相关神经元数量均有所上升,而通用神经元数量相应下降。这表明模型在输入侧更依赖语言相关结构来建立跨语言间的映射,为后续推理的对齐提供基础。

(2)输出阶段:从“单语言特化”转向“跨语言共享”

多语言输出空间转换阶段,语言相关神经元的数量显著增加,而语言特定 神经元有所减少。这一反向变化说明,对齐后的模型在生成目标语言输出时,会更多利用跨语言共享的结构,而减少对高度语言特化神经元的依赖。

(3)整体趋势:由“单语言依赖”转向“多语言共享”

跨层统计如图所示,这进一步显示对齐后:

6:对齐后被不同数量语言(N)所共享的神经元的数量变化

  • 语言特定神经元整体减少

  • 语言相关神经元显著增加

  • 通用神经元数量也呈现上升趋势

结合多语言激活模式进一步观察可以发现:部分原本仅在少数语言中活跃的神经元,在对齐后会在更多语言间被共同激活,其语言覆盖范围呈扩大趋势。这一现象在不同模型与数据集上均具有一定一致性,提示多语言对齐可能使模型更倾向于使用在多语言间具有更高共享度的神经元结构。

4.4 自发多语言对齐现象

此前研究提出了自发多语言对齐(Spontaneous Multilingual Alignment)现象:即使对齐训练仅涉及少数语言,其他未参与对齐的语言也会同步受益。本文在 MAPO 框架下验证了这一现象:

1MistralMathOctopus对齐前后模型在MGSM上的准确率。“X/Y  T“表示多语言对齐中语言XY向语言T进行对齐

  • 例如仅在中文与德语上执行对齐训练(zh/de ⇒ en),模型在 MGSM 上的平均准确率由 57.8 提升至 63.6

  • 多种未直接参与对齐的语言(如西班牙语、法语、泰语等)也出现了不同程度的性能提升。

为了理解这一现象背后的内部机制,我们进一步统计了对齐前后,不同语言对应的神经元数量变化。结果显示:

2:自发多语言对齐实验中训练和未经训练语言上不同种类神经元数量变化的平均结果

  • 对齐语言中:语言特定神经元数量减少,而语言相关神经元数量显著上升;

  • 未对齐语言中:同样观察到语言相关神经元数量上升的趋势,尽管幅度较小。

这一结果说明,对齐训练不仅改变了对齐语言内部的神经元参与模式,也在一定程度上影响了其他语言的神经元结构:与多种语言共同相关的语言相关神经元在更多语言间得到使用,其共享范围有所扩大。

因此,自发多语言对齐不仅体现在性能提升上,也在神经元层面呈现出一致的结构变化,为这一现象提供了进一步的证据支持。

05

总结

本文从神经元粒度系统分析了多语言对齐对大型语言模型内部结构的影响。通过提出更精细的三元神经元分类体系,并构建结合特异性与有效性的统一识别方法,我们揭示了语言相关神经元在多语言能力中的关键作用,并据此刻画了模型在多语言推理中经历的四阶段内部流程。进一步的对齐前后对比显示,多语言对齐会重塑模型内部的神经元参与模式,使模型更倾向于依赖在多种语言间共享的表征结构。这一视角同时为“自发多语言对齐”等现象提供了神经元层面的支持。

总体来看,本文为理解多语言对齐的内部机制提供了更具结构化与可验证性的解释路径,也为后续改进多语言模型的训练方法和对齐策略提供了新的分析依据。

参考文献

[1] She, S.; Zou, W.; Huang, S.; Zhu, W.; Liu, X.; Geng, X.; and Chen, J. 2024. MAPO: Advancing Multilingual Reasoning through Multilingual-Alignment-as-Preference Optimization. In Ku, L.-W.; Martins, A.; and Srikumar, V., eds., Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 10015–10027. Bangkok, Thailand: Association for Computational Linguistics.

[2] Tang, T.; Luo, W.; Huang, H.; Zhang, D.; Wang, X.; Zhao, X.; Wei, F.; and Wen, J.-R. 2024. Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models. In Ku, L.-W.; Martins, A.; and Srikumar, V., eds., Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 5701–5715. Bangkok, Thailand: Association for Computational Linguistics.

[3] Wendler, C.; Veselovsky, V.; Monea, G.; and West, R. 2024. Do llamas work in english? on the latent language of multilingual transformers. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 15366–15394.

[4] Zhao, Y.; Zhang, W.; Chen, G.; Kawaguchi, K.; and Bing, L. 2024b. How do large language models handle multilingualism? arXiv preprint arXiv:2402.18815.

[5] Zhang, S.; Gao, C.; Zhu, W.; Chen, J.; Huang, X.; Han, X.; Feng, J.; Deng, C.; and Huang, S. 2024. Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners. In Al-Onaizan, Y.; Bansal, M.; and Chen, Y.-N., eds., Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 8037–8051. Miami, Florida, USA: Association for Computational Linguistics.

[6] Huang, H.; Tang, T.; Zhang, D.; Zhao, W. X.; Song, T.; Xia, Y.; and Wei, F. 2023. Not all languages are created equal in llms: Improving multilingual capability by cross-lingual-thought prompting. arXiv preprint arXiv:2305.07004.

阅读原文

跳转微信打开

在典籍中看文明——访中国国家版本馆党委书记、馆长刘成勇

2026年4月5日 09:01

2026-04-05 09:01 江西

分享一篇文章。

中国新闻出版广电报: 在典籍中看文明——访中国国家版本馆党委书记、馆长刘成勇

在文化遗产保护传承日益受到重视的当下,如何理解典籍版本在文明传承中的核心作用?“代代相传的典籍版本见证了世界上唯一没有中断的文明,可以说版本蕴藏着中华民族的精神基因和文化根脉,它是记录历史、见证文明的金种子。”中国国家版本馆党委书记、馆长刘成勇近日在接受《中国新闻出版广电报》记者采访时说,作为国家版本资源总库和中华文化种子基因库,中国国家版本馆肩负着赓续中华文脉、坚定文化自信、展示大国形象、推动文明对话的历史使命。他从历代传世版本谈起,分享了对文化遗产里的中国的深刻思考。

《中国新闻出版广电报》:您怎么看古籍与大众日常生活的联系以及近年持续升温的文博热?

刘成勇:许多人觉得古籍遥不可及,其实不然,古籍与今天大众生活的关联,是“日用而不觉”的。例如,在古籍雕印中有一种常见的“宋体字”,它是在唐楷的基础上,经过宋元明的演变逐渐形成,笔画劲挺峻峭,结构匀称整齐,端庄典雅,适合雕刻,便于阅读,利于传播。到今天,我们仍然在广泛使用这种字体。不论是图书报刊、公文函件、合同协议,还是证件招牌、标题字幕等等,都有宋体字的身影。可以说,古籍中的宋体字已经成为中国人的文化符号之一,在社会生活中一直发挥着巨大的作用,具有重要的实用价值和审美功能。从这个层面上说,古籍就在我们身边,从未走远。

现在有许多人热衷到各个博物馆打卡、集章,包括中国国家版本馆每天都有十几个团来参观,旺季时团队预约甚至排到一两个月之后。我觉得这是一个非常好的事情,令人十分欣喜,这背后,折射出的正是公众日益增强的文化自信与对中华优秀传统文化的由衷热爱。

《中国新闻出版广电报》:相较于各大博物馆,中国国家版本馆有定位与藏品的特殊性,请简要介绍版本馆及藏品对大众了解中华文化的作用,参观前可以做哪些准备?

刘成勇:中国国家版本馆是文明大国建设的基础工程,是功在当代、利在千秋的标志性文化工程,集图书馆、博物馆、档案馆、美术馆等功能形态于一体,全面履行国家版本资源规划协调、普查征集、典藏展示、研究交流和宣传使用的重要职能。在这里,读者可以从中华版本中获得精神滋养,直观感悟中华文明的浩瀚璀璨和中华民族生生不息的精神脉络。

在参观前,可以通过国家版本馆官网或媒体报道提前了解国家版本馆“藏之名山、传之后世”的存藏理念和建设意义。重点关注“明星藏品”,提前熟悉它们的背景知识,比如武则天组织抄写的唐代写本《妙法莲华经》,了解唐代的“三审三校”制度;宋拓孤本《西楼苏帖》,感受苏轼书法的魅力和宋代文人的精神世界。

《中国新闻出版广电报》:如果观众参观后有进一步了解的兴趣,您有什么建议?

刘成勇:若参观之后仍意犹未尽,可从三个方面加深了解。一是阅读书籍,建议从通识性、普及性、趣味性的书籍入手,推荐《馆长眼中的镇馆之宝》,这本书从经济、科技、文明传承视角讲述文物背后的精彩故事,值得一读。若想深入研究,可以订阅《中华版本学刊》,这是新时代版本学领域创刊的第一本学术期刊,方便及时获取版本研究的新动态与新方法。二是中国国家版本馆设有研学项目,精心设计了参观路线,沉浸式VR互动、体验雕版印刷乐趣、创意甲骨文互动,还有宣传画互动屏,每一场研学之旅既有知识厚度,又有互动乐趣。三是参加“文瀚雅集”等交流活动,在“版本展示+晒书鉴赏+座谈交流”中,了解版本征集、版本收藏、研究出版、文创开发等知识。

《中国新闻出版广电报》:您在全国两会上提到正在建设中的中华典籍线上展示平台,可否描绘一下平台建成后的数字阅读体验?

刘成勇:中华典籍线上展示平台是中国国家版本馆建设的综合性数字资源展示平台,实现了对珍贵典籍数字化资源保存、展示与服务。目前平台处于建设起步阶段,已上线展示了17万种古籍和近现代文献资源,让原本“藏在深闺”的文化瑰宝走进了公众视野。

未来我们将着力构建“平台+用户”共建共享生态,逐步上线面向社会各界开放的资源入藏共建、规范审核、发布展示专属模块,打通民间珍贵典籍入藏国家版本资源总库的渠道,同时鼓励公众参与典籍研读、知识分享、校勘补充等活动,营造“人人可参与、人人可传播、人人可传承”的文化氛围。

《中国新闻出版广电报》:中国国家版本馆将如何更好地服务“加强文化遗产保护传承”这一要求?

刘成勇:中国国家版本馆致力于赓续中华文脉,构建中华文化种子基因库,把自古以来能收集到的典籍资料收集全、保护好,把世界上唯一没有中断的文明继续传承下去。我们综合运用法定呈缴、捐赠、采购、寄存、数字化等多种方式,广泛征集中华文明典籍资料,包括中华古籍、甲骨简牍、革命文献、宗教文献、碑帖拓片、方志家谱、雕版印章、档案文书、影音影像、现代出版物、数字版本等,截至目前共收藏实物版本3400余万册/件,数字文献36亿页。

此外,《全民阅读促进条例》正式施行,中国国家版本馆作为国家重大文化工程,其历史使命与“全民阅读”主题天然契合,今年我们将立足丰富的版本资源,以“书香中国 文脉赓续”为主题,推出系列阅读活动,在第五届全民阅读大会上策划举办阅读主题展览,传承弘扬中华文脉,助力书香社会建设。


编辑:吴 凡

审核:樊 凡

图片

最近更新了微信版本的人,大家很难在杂乱的消息列表里找到我!

其实只要简单的几步操作,将我置顶起来——

图片

图片

中国新闻出版传媒集团微信矩阵

↓看看更有针对性的细分领域↓

版话儿

版人版语

传媒瞭望

发行观察

广电家

好书品读

印业独家

中国农家书屋

中国出版

↑喜欢我,就点开二维码图片并识别我吧↑

阅读原文

跳转微信打开

饶高琦 | 基于市场需求的新质语言教育探索

2026年4月4日 09:00

徐惠 2026-04-04 09:00 江苏

数智时代新质语言教育成刚需,探析人才培养、困境及重构路径。

转载自“语言教学与研究”


本文来源:魏晖,施春宏,刘晓海,等.“新质语言教育”大家谈[J].语言教学与研究,2026,(02):1-15.

图片

编者按

语言教学与研究

数智时代的到来与技术的飞速发展引发市场对人才需求结构的根本性转变,着力培养“懂语言十懂技术”以及能应用、会管理的多元化、技术化、场景化复合型人才已成为时代发展的迫切要务,这一趋势正驱动着语言教育的深层次变革。有学者认为,变革的方向是以服务新质生产力发展为根本导向,以培养国家和社会急需的新质语言人才为根本任务,以高科技为驱动,以高效能为追求,以高质量为目标,可称之为新质语言教育。本期刊发的“大家谈”讨论了新质语言教育的基本定位、属性特征和相关学科建设问题,分析了新质语言人才的核心能力与培养面临的现实困境,提出了新质语言教育的路径重构,讨论了面向应用场景的语言工程人才的核心能力,基于实践初步构建了培养卓越语言工程师的新质语言教育体系。欢迎学界同仁积极参与、共献智慧,大力推进新质语言教育研究和实践工作,欢迎大家就相关专题做出具体的实证研究和理论思考。本刊将持续推动相关研究,以践行“推进学术,建设学科,发展事业,服务社会”的办刊宗旨。


基于市场需求的新质语言教育探索

北京语言大学语言科学与资源学院 饶高琦

在人工智能与数字经济的双重驱动下,市场对语言人才的需求已从单一技能型,转为“语言学十技术十场景”的复合能力型。2025年初教育部、国家语委、中央网信办联合印发《关于加强数字中文建设 推进语言文字信息化发展的意见》,明确提出“构建数字时代语言人才培养体系,强化语言智能与多领域融合应用”,这为语言人才培养的转型发展指明了方向。在教育强国战略背景下,立足语教融合理念与“大语言学观”,变革语言教育,培养适应市场需求的语言人才(可称之为新质语言人才,相应的语言教育称为新质语言教育),既是语言学学科自身发展的内在要求,也是服务国家数字经济建设的必然选择。

一、市场需求驱动下新质语言人才的核心能力构成

(一)新质语言人才的市场需求

当前,语言人才市场呈现多元化、技术化、场景化特征。从招聘市场数据看(基于本课题组在几大主流招聘网站进行的相关招聘广告的抓取和分析),人工智能与数据标注相关岗位占比已达62%,成为新质语言人才的核心需求领域,典型岗位包括AI训练师、数据标注师、提示词工程师等。数据标注产业的蓬勃发展直观反映了市场对基础语言人才的迫切需求。我国目前已有5.8万全职数据标注员(数据来源:中国信通院《数据标注产业发展研究报告(2025)》)。经估算,2025年我国数据标注员岗位缺口将高达100万,数据标注市场规模达到102.1亿元(数据来源:中商产业研究院)。数据产业不仅提供了大量基础岗位,更催生了对数据标注管理、语料库建设、标注规范制定等中高端人才的需求。这些岗位从业人员不再局限于传统语言学的培养内容,而是要求将语言学理论转化为机器可识别、可处理的结构化数据与规则体系。而大模型背景下的人机交互则进一步拓展了新质语言人才的就业边界,催生了大模型产品经理、提示词工程师等岗位。它们要求从业者兼具语言学素养、逻辑思维与产品意识。除技术导向型岗位外,文化传媒与编辑、教育科研、技术支持与本地化等领域对语言人才的需求也呈现出交叉融合特征。本地化技术支持岗位要求掌握多语言翻译与跨文化沟通技能。这种多元化需求图景表明,新质语言人才必须突破单一学科局限,形成适应多场景应用的能力体系。

(二)新质语言人才的核心能力

2018年,谷歌公司在语言资源与评测大会(LREC)上发布了“语言学者工业界就业能力量表”(下称“谷歌能力量表”)。虽然IT技术在过去7年出现爆发式增长,但其能力侧面依然有效。结合我国特点,我们认为新质语言人才的核心能力可从语言学本体、技术应用、交叉融合与场景落地四个维度进行概括。

语言学本体能力是基础,涵盖语音学、句法学等核心理论,需掌握国际音标、语料库技术。

该能力在谷歌能力量表占比33%,是区分专业与普通语言从业者的关键。技术应用能力是核心竞争力,包括编程、数据处理、大模型使用等技能。本课题调研数据显示,60%以上A1相关岗位要求编程与数据处理能力,基础标注岗有脚本编写能力者晋升更优。

交叉融合能力体现“大语言学观”,要求打破文理藩篱,融合计算机、社会学等多学科知识。如社交媒体运营需结合语言学与社会学挖掘语言规律,医疗、金融相关岗位需融合对应行业知识。这是市场需求,也是语言学科创新发展的路径。

场景落地能力强调理论落地,须具备需求分析、产品思维等素养。

二、新质语言人才培养的现实困境

(一)学科壁垒尚未打破,培养体系滞后

当前传统中国语言文学、外国语言文学等专业课程设置偏重理论研究,与计算机科学、数据科学等技术学科的融合不足。本课题调研了多所高校语言学专业课程发现,编程、数据处理、AI技术处理相关课程占比不足10%,导致学生技术应用能力薄弱,难以满足市场对“懂语言十懂技术”复合型人才的需求。本课题调研显示,58%语言工程类岗位明确要求计算机或数学背景;即使是数据标注等基础岗位,也有近68%要求应聘者有相关经验。

在学科困境中,尤为凸显的是跨学科师资力量匮乏和教学模式创新不足的问题。新质语言人才培养需兼具语言学理论功底与技术应用能力的跨学科师资。但当前教师队伍,缺乏产业实践经验与技术训练,难以有效开展跨学科教学。部分高校虽尝试引人计算机专业教师参与,但由于学科差异巨大,协同难度大,课程内容衔接不畅,难以形成系统的培养体系。

此外,教学模式创新不足也制约了人才培养质量提升。当前教学仍以课堂讲授为主,互动式、项目式教学占比偏低,导致学生实践能力较弱。

(二)语言资源建设与利用不充分,人才供需匹配度不高

语言资源的建设和研究是数智时代对语言学学科提出的重大需求,特别强调语言资源的监测、挖掘和利用。但当前高校语料库建设普遍存在规模小、类型单一、更新缓慢等问题,缺乏多领域、多模态的真实语料资源,与企业实际应用场景脱节。语言智能技术平台建设滞后,多数高校尚未配备先进的AI训练工具、语音处理设备等,学生既缺乏相关意识培养,也不具备实践操作的软硬件条件。

三、基于市场需求的新质语言教育路径重构

(一)坚持语教融合,构建跨学科培养体系

语教融合是新质语言教育的核心理念,这要求打破语言学和语言教学、语言和技术、理论与实践的教学壁垒,实现知识、技能与素养的一体化培养。在课程体系重构方面,应立足“大语言学观”,以语言本体计算为核心,构建“基础理论十技术技能十场景应用”的模块化课程体系,基础理论模块保留普通语言学、应用语言学等核心课程,增设语料库语言学、计算语言学、语言资源学等交叉课程,夯实语言学基础;技术技能模块引入脚本编程、数据结构、机器学习基础、A1工具应用等课程,培养技术应用能力;场景应用模块根据市场需求设置NLP应用、语言模型训练、跨文化沟通、舆情分析等课程,提升场景落地能力。

在教学模式创新方面,应推广项目式教学、案例教学等方法,以真实产业项目为载体,引导学生主动参与问题解决。建立校企联合教学团队,邀请企业专家参与课程设计与教学,将技术需求与实践案例引入课堂。为此可构建“课堂实践十校内实训十企业实习”的三级实践教学体系,强化学生的场景落地能力。

此外,还应加大投入建设校内实训平台,配备数据标注工具、语音合成系统、大模型训练平台等条件,为学生提供常态化的实践环境。

(二)立足资源导向,强化语言资源建设与利用

语言资源建设是新质语言教育的重要方面。在语料库建设方面,应联合高校、企业、科研机构共建共享超大规模、轻度加工、来源多样、动态更新、建设主体多元化的语料库。建立语料库标注规范与质量控制体系,提升语料库的可用性,同时培养学生的语料库建设与使用能力,新质语言教育的实施过程,也是推动语料库建设的过程。

构建语言资源共享机制,打破高校、企业间的资源壁垒,建立国家级语言资源共享平台。整合各类语料库、技术工具、教学等资源,实现资源的高效利用。鼓励高校教师基于共享资源开展教学改革与科研创新,开发个性化的教学案例与实践项目。

(三)对接教育强国战略,完善人才培养保障体系

应加强顶层设计,将新质语言人才培养纳入国家语言人才发展规划,明确人才培养的日标、任务与路径。教育行政部门加大对语言学学科建设的支持力度,引导高校优化专业结构:加快跨学科专业建设,重点支持AI与计算语言学、语言智能教育等新兴方向。加强师资队伍建设,打造一支兼具语言学理论功底、技术应用能力与产业实践经验的跨学科师资队伍。

四、结语

实施新质语言教育是一项系统工程,需要立足教育强国战略,坚持语教融合理念与“大语言学观”,打破学科壁垒,创新培养模式,强化资源支撑,构建适应数字时代发展要求的人才培养体系

高校作为人才培养的主阵地,应主动适应市场需求变化,深化教学改革,加强校企合作,提升人才培养质量;企业应积极参与人才培养过程,提供实践平台与技术支持,实现人才供需精准匹配;政府应加强政策引导与资源支持,营造良好的人才培养环境。

图片

作者简介

语言教学与研究

饶高琦,北京语言大学副研究员、硕士生导师。北京语言大学语言学及应用语言学博士。中国中文信息学会青年工作委员会、计算语言学专委会、社会媒体计算专委会委员。主要研究方向为语言资源学、教育技术、语义规划学和数字人文。主持国家语委科研项目、教育部人文社科基金项目等多项课题,发表学术论文 50 余篇,参与起草规范、标准 5 种

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Call for paper | NLPCC 2026

2026年4月3日 09:00

NLPCC 2026 2026-04-03 09:00 江苏

NLPCC 2026于11月在澳门举办,6月13日截稿,录用论文由Springer出版。

转载自“计算机科学讲义”

会议全称:

The 15th CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC 2026)

时间地点:

2026年11月3-5日,澳门

会议网址:

http://tcci.ccf.org.cn/conference/2026/

联系人:

info@nlpcc2026.org

投稿链接:

https://openreview.net/group?id=ccf.org/NLPCC/2026/Conference#tab-recent-activity

大会简介

CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC 2026) 是中国计算机学会自然语言处理技术委员会的年度会议。自2012年创办以来,已在郑州(2020)、青岛(2021)、桂林(2022)、佛山(2023)、杭州(2024)和乌鲁木齐(2025)等地成功举办。NLPCC是自然语言处理和中文计算领域领先的国际会议。它为来自学术界、产业界和政府部门的研究人员和实践者提供了一个重要的交流平台,分享思想、研究成果和经验,并促进相关领域的研究和技术创新。

NLPCC 2026 将延续这一传统,欢迎提交原创性、高质量的研究成果。所有录用论文将由 Springer Lecture Notes in Artificial Intelligence (LNAI) 出版,并提交至主要学术数据库检索,确保研究成果的国际传播与学术影响力。

征稿方向

NLPCC 2026 欢迎以下领域的原创研究成果(包括但不限于):

  • 语言学与自然语言处理基础:Discourse and Pragmatics; Linguistic Theories, Cognitive Modeling and Psycholinguistics; Phonology, Morphology and Word Segmentation; Semantics; Syntax: Tagging, Chunking and Parsing

  • 机器学习、模型与智能体:Machine Learning for NLP; Interpretability and Analysis of Models for NLP; Large Language Models; LLM Agents

  • 多模态与交互系统:Machine Translation and Multilinguality; Speech and Multimodality; Dialogue and Interactive Systems

  • 信息抽取、检索与文本理解:Information Extraction and Knowledge Acquisition; Information Retrieval and Text Mining; Question Answering; Text Summarization and Generation

  • 应用与伦理:NLP Applications; Computational Social Science and Social Media; Sentiment Analysis; Ethics and NLP; Resources and Evaluation; AI for Science; AI for Software Engineering

重要日期

  • 投稿截止:2026年6月13日

  • 录用通知:2026年8月4日

  • 终稿提交:2026年8月15日

大会组委会

General Chair

Yue Zhang, Westlake University

Program Chairs

Roy Ka-Wei Lee, Singapore University of Technology and Design

Qi Zhang, Fudan University

Meishan Zhang, Harbin Institute of Technology (Shenzhen)

Workshop Chairs

Tieyun Qian, Wuhan University

Yang Zhao, Institute of Automation, Chinese Academy of Sciences

Evaluation Chairs

Jie Yang, Harvard University

Kunli Zhang, Zhengzhou University

Tutorial Chairs

Zhaochun Ren, Leiden University

Wenbin Jiang, Beijing Normal University 

Xiting Wang, Renmin University of China

Publication Chairs

Jianxing Yu, Sun Yat-sen University

Jin Wang, Yunnan University

Organization Chairs

Derek F. Wong, University of Macau

Haofen Wang, Tongji University

往届论文推荐

欢迎通过Springer出版您组织的学术会议,联系编辑团队获取合作信息!

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

《语言与智能》征稿启事

2026年4月2日 09:00

BFSU AI 2026-04-02 09:00 江苏

以下文章来源于:北外人工智能与人类语言实验室

北外人工智能与人类语言实验室

实验室立足学校外语教学与研究传统优势,聚焦国家人工智能与教育领域的前沿问题,创新机制体制,凝聚国内外交叉学科智库资源,着力开展语言学习机理研究、基于人工智能的语言教学研究、多语言语料库、多语自然语言处理和外语健脑强智研究。

第1辑正式出版,第2辑开始征稿,欢迎各位专家学者赐稿,感谢大力支持!

近年来,以ChatGPT为代表的大语言模型的出现使语言智能研究成为人们关注的热点领域。为充分发挥教育部哲学社会科学实验室、语言智能教育部工程研究中心的科研育人作用,深化科教融合,加快科研成果转化,北京外国语大学人工智能与人类语言重点实验室联合外语教学与研究出版社,推出《语言与智能》学术期刊(ISBN:978-7-5213-5692-2)。期刊聚焦人工智能与人类语言领域前沿问题,旨在推动语言学、认知科学和人工智能等领域的深入研究,促进学科交叉融合,加强研究者相互交流,传播高水平前沿学术研究成果,支持优秀学术人才成长。

《语言与智能》第1辑已于2024年10月正式出版,包含语言认知、语言智能服务、语言智能教学、语言智能翻译四个栏目,共8篇学术文章,感兴趣的读者可在文末选购本书。

《语言与智能》第2辑 征稿启事

1. 期刊定位与目标

《语言与智能》是一个涵盖语言学、人工智能、认知科学、神经科学、临床医学等领域的跨学科学术中文期刊,主要刊发语言与智能领域原创性研究成果、理论性文章和反映研究现状的评论性文章。每年出版2期,面向国内外公开发行。

秉承“交叉融合、守正创新”的办刊宗旨。坚持以多元领域的前沿重大理论问题和重要现实问题为导向,择优录用能够引导交叉学科发展的原创性稿件,刊载具有理论性、实证性及前沿性的研究成果。本刊根据国际学术期刊惯例,不以职称、学历、单位等标准判定论文质量,全程实行匿名评审制度,及时向作者反馈审稿意见。

2. 主要栏目

(1)语言智能研究:涉及语言学与其他认知科学、智能科学的交叉领域研究,包括语言与认知、语言与脑科学、机器翻译、计算语言学、知识图谱研究、语言蚀失和语言障碍研究、语料库研究、智慧语言教学等。

(2)言语规律及其机理研究重点研究人类言语现象和规律,基于脑科学、认知科学的语言现象机理研究,人类言语行为与机器智能的互动促进研究等。

(3)语言数据和语言模型研究:包括语言数据的收集、标注、应用以及数据驱动的语言研究技术等。

(4)语言智能技术研究:包括语音识别与合成、机器翻译、自然语言处理、人机对话、大模型原理与对齐技术、智能搜索等领域的关键技术创新研究。

(5)语言智能创新应用研究:包括大语言模型应用场景、策略的研究等。

(6)前沿综述与评述:涉及学科研究的前沿动态、最新发展趋势等的研究综述与反映研究现状的评论性文章。

(7)学界动态:包括书刊评介(对近2年内的语言学外文原版专著进行内容介绍和评价,需突出重点及新兴信息)、交叉学科建设资讯等。

3. 稿件要求

(1)原创性论文:要求具有较新的观点,或在研究过程中采用新的理论视角、研究方法;基于数据且比较扎实的个案研究;写作规范,方法科学,论证围绕核心观点展开,长度10,000—12,000字。

(2)书评:主要针对近三年出版的语言智能研究领域论著,以国内外新书为主;在介绍的同时,以研究性评论为主;内容可涉及该书的选题、价值、特点、研究方法以及不足之处等,长度8,000—12,000字。

(3)来搞要求遵守学术规范。参考文献格式体例参照中华人民共和国国家标准《信息与文献 参考文献著录规则》(GB/T 7714-2015)。

(4)投稿请直接发送投稿邮箱bfsu_ai@126.com,邮件请以“专题+标题+姓名+作者单位”命名,来稿附件请用Word文件。初审通过后,编辑部将邀请专家进行外审,一般在三个月内就刊登与否予以答复,若到期未收到录用通知,作者可自行处理稿件。稿件内容文责自负,编辑部保留对稿件进行必要修改的权利。

(5)来稿请于文末注明作者简介,包括姓名、单位、职称(在读研究生请规范注明“博士研究生”或“硕士研究生”;在站博士后请规范注明博士后流动站名称或所在二级学院和“在站博士后”)、研究方向、通讯地址、邮编、电话及电子邮箱。若有多个作者,请用分号隔开。获得基金资助的项目,请注明项目名称及项目编号。

    欢迎各位专家学者赐稿,感谢大力支持。

《语言与智能》期刊编辑部

2024年11月

《语言与智能》第1辑正式出版

 点击图片看大图

感兴趣的读者请点击下方小程序选购本书。

阅读原文

跳转微信打开

New | 澳门大学语言学学科QS排名首度跻身全球百强

2026年4月1日 09:00

镜海语言学 2026-04-01 09:00 江苏

以下文章来源于:镜海语言学

镜海语言学

澳门大学语言学研究中心官方公众号

澳大语言学 QS2026 排全球 98,凭多元发展登百强并扩招生。

转载自“镜海语言学”

澳门大学语言学学科QS国际排名

首度跻身全球百强!

近日,国际高等教育权威机构Quacquarelli Symonds(简称“QS”)正式发布了2026年世界大学及学科的国际排名。澳门大学语言学学科表现卓越,以全球第98位的靓丽成绩首次跻身世界百强!这一历史性突破,标志着澳门大学语言学的国际影响力和学术竞争力迈上了一个全新的台阶。

回顾过去六年的排名历程,澳门大学语言学科走出了一条扎实的上升曲线。2021年起基本上以一年上一个台阶的速度进步,从当年的251-300区位,一路上升到2026年第98位,成功跻身全球百强。每一步提升都凝聚着澳大语言学学科全体师生的智慧与汗水,凝结着领导的关心和学界的支持。

在本年度QS语言学学科全球百强榜单中,中国两岸四地共有12所高校入围。年轻的澳门大学竟与北京大学、香港大学和台湾大学等一众语言学传统重镇同列,我们深感荣幸,心怀感激!

澳门大学语言学学科近些年来始终秉持“精钻研、跨学科、国际化”的发展理念,在学术研究、平台建设与国际合作领域持续深耕,取得了一系列重要进展。

组建研究中心,协同创新发展

2022年3月,澳门大学语言学研究中心在澳门大学人文学院揭牌成立。澳门特别行政区长期通行多种语言,文化景观多元并存,堪称“多元文化的鲜活博物馆”和“多种语言的天然实验室”;澳门大学人文学院针对不同语种,同时设有中文系、英文系、葡文系、日文系。这为中心整合学术资源,组织跨语种课题合作打下了坚实的基础。中心自成立以来,致力于推动各学系、各语种研究团队之间的协同发展,聚焦跨语言比较、深耕理论探索,持续产出大量高水平有影响的学术成果,同时进一步壮大了澳门大学语言学研究集群的力量。

欢迎访问澳门大学语言学研究中心官网:https://linguistics.fah.um.edu.mo/home/

深耕特色期刊,推动学术对话

《澳门语言学刊》2022年起由澳门大学人文学院接手主办。作为港澳地区最具权威性的语言学专业期刊之一,学刊始终坚持严格的匿名审稿制度,聚焦中国境内语言及跨语言研究,近年来又特别增设“境外语言学著作文摘”等特色栏目,促进境内外学术成果交流。我们还连续多年主办了“70后语言学优秀学者”的国际评选活动,其目的是尽可能减轻项目经费和刊物档次等时下所谓的指标对学术研究的过度干扰和扭曲,引导年轻学人聚焦体系性和原创性的学术贡献,受到了学界的广泛好评。2025年起,刊物携手香港三联书店升级出版流程,进一步扩大了国际传播力和学术影响力。

共筑学术高地,深化国际合作

澳门大学自2023年开始跟北京语言大学共同主办《中国语言学报》(Journal of Chinese Linguistics,JCL)。是年8月,“《中国语言学报》创刊50周年学术研讨会”在澳大成功举办,澳门编辑部同时启用。澳大参与主办后,积极推动刊物扩容。本刊原为半年刊,2024年起扩容为一年3期,2027年起又将进一步扩容为一年4期。作为入选SSCI和A&HCI双索引系统的语言学领域重要期刊,JCL汇聚海内外顶尖学者,探讨一系列前沿议题。澳门编辑部的成立,不仅强化了刊物的全球协作网络,也为澳大语言学学科进一步融入国际学术共同体注入了新动能。

拓新跨学科研究,筑牢神经语言学

与语言加工研究根基

澳大人文学院语言学学科积极开展跨学科研究的深度探索与实践,其中以神经语言学和多语言加工为核心的跨学科研究成果尤为突出。该领域的研究工作由翻译传译认知研究中心牵头,深度联动澳门大学认知与脑科学研究中心,并与科技学院、社会科学学院心理学系等机构开展跨院系合作,同时整合校内外多领域学术资源形成研究合力,成为推动学科创新发展的重要引擎。研究团队聚焦澳门多语言社会的独特优势,围绕中、葡、英三语展开跨语言、跨模态迁移的神经认知机制研究,综合运用眼动追踪、脑电图(EEG)、功能磁共振成像(fMRI)等前沿实验技术,系统探究三语者的语言加工、跨语言切换及执行功能的神经基础,为双语/多语优势假说提供关键的神经认知证据。在研究过程中,团队攻克了 MRI 扫描中多模态刺激呈现、头部运动控制、声音采集与降噪等多项技术难题,构建了澳门大学脑图谱(University of Macau Brain Atlas)—— 这一基于表面的功能性脑图谱数据库,整合了多语言、多模态、多人群的脑功能映射数据,即将面向全球科学界发布并开放使用,成为国际语言学与神经认知科学领域的重要公共研究资源,也让澳大在多语言脑认知研究领域形成了鲜明的国际特色与学术优势。

助力学科创新,搭建全球平台

2024年3月17日,由澳门大学语言学研究团队牵头,国际语法研究学会(International Association of Grammar Studies,IAGS)在中国澳门成立。学会筹备成立期间便得到了海内外知名学者的广泛响应和大力支持。2024年12月1-4日,澳门大学成功举办了学会的首届学术研讨会。中山大学2025年11月20-23日成功承办了第二届学术研讨会。两次研讨会都吸引了百余位语法学者踊跃参加。大家围绕形式语法、构式语法、方言研究、语言类型学、汉外对比、人工智能与语法研究等多个前沿议题展开热烈讨论。第三届学术研讨会即将于2026年11月20-22日在郑州大学召开。欢迎各位同仁共襄盛举,踊跃投稿!

有兴趣参加者请提供A4纸尺寸一页以内的中文或英文论文摘要。会议投稿截止日期是2026年8月14日,投稿邮箱为:iags_2026@163.com。

国际语法研究学会在内容上倡导“跨学科、跨学派、跨语种、跨国界、跨古今”的“五跨”新理念,在会议形式上倡导“平等、和谐、自在、简约、高效”的“五项”的新风尚。我们在国内外语言学领域的学术社团总数已经很多的情况下,之所以要成立一个新学会,绝不是为了赶热闹,凑数字,而是为了突破当今语法研究领域基于语种和学派的条块分割现状。我们就是要在语法研究领域打通古今与中外,对接事实与理论,引导跨界交流,激活大脑风暴,推动理论创新。我们尊重观点不同,享受学术差异!

虚心地学习他人,自信地展示自我

本着“平等、亲切、务实”的圆桌精神,由本校博士生主导的学术俱乐部“镜海语言学社”自2021年起每年举办一届“镜海语言学圆桌研讨会”,邀请澳门地区其他兄弟院校师生及在澳访问的学者跟澳大师生一起探讨共同感兴趣的学术问题,发表研究报告,交流研究心得。宾主一致认为我们的圆桌研讨会“极度宽松、极度务实、极度自在”。我们倡导师生互动、主客互动、内外互动。会议形式虽然简单,但是效果显著,意义重大。作为承办单位,我们自己的老师,我们的同学,不仅搭台,更要唱戏,人人都是此一学术活动平等的推动者和参与者。

创新学术传播,连接学界社群

由澳门大学语言学团队运营的微信公众号“镜海语言学”自创立以来,充分平衡专业深度与大众传播,一方面建立了“成果速递”“论文推介”等栏目,持续推送来自《澳门语言学刊》《中国语言学报》和澳门大学语言学团队的最新研究成果,另一方面特别设置了“镜海心得”专栏,积极接收来自学界同仁的踊跃投稿,将晦涩的学术问题转化为鲜活易懂的随笔,不间断地分享诸位同仁从日常研究工作中总结得来的宝贵经验。得益于学界同行的关注和支持,短短3年间,账号关注人数已由不足千人快速增长近万人,用户覆盖海内外众多高校的师生。公众号以新鲜活泼的内容和别具一格的形式赢得了学界朋友的广泛赞誉,成为澳大连接海内外语言学人的“云端俱乐部”和澳大语言学团队在学界发声的“天空麦克风”。欢迎更多同道扫码关注!

我们深知,自己的工作虽然取得了些许进步,但是仍有很多缺点和不足,有很多地方需要向兄弟院校学习。正因为如此,我们才更有必要以此为新的起点,不骄不躁,再接再厉,继续开拓创新,再攀高峰!站在全球百强的新起点上,澳门大学语言学学科将继续依托澳门“一国两制”的独特优势,以更开放的姿态、更扎实的工作,与全球语言学同仁携手,为语言科学的创新发展贡献更多“澳大智慧”。

此外,澳大语言学科为配合学校的发展战略,近年来大幅度地扩大硕士生和博士生的招生名额。我们热忱海内外有志学子积极报读!

让我们共同期待,澳门大学语言学学科在国际学术舞台上书写更加辉煌的篇章!

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

讲座预告 | 王浩斌《从发表的角度看学术论文的选题与写作思路》

2026年4月1日 09:00

徐惠 2026-04-01 09:00 江苏

《南京大学学报》执行主编王浩斌教授将在2026年4月2日带来主题为《从发表的角度看学术论文的选题与写作思路》的专题讲座。

讲座预告

苏派学术大讲堂第 01 期特邀《南京大学学报》执行主编王浩斌教授,带来主题为《从发表的角度看学术论文的选题与写作思路》的专题讲座。

讲座时间及地点

  • 主持人:南京大学出版社苏派学术编辑部 徐丽

  • 会议时间:2026年4月2日(周四) 15:00—16:30

  • 会议号码:384 960 281(腾讯会议扫码参会)

主讲人简介

王浩斌教授现为《南京大学学报》执行主编,全国文科学报研究会副理事长,中国期刊协会集群化委员会副主任,江苏省期刊协会副会长,独立主持国家社科基金、教育部人文社科基金、教育部人文社科基地重大项目、江苏省社科基金、中国博士后基金以及地方政府委托项目(地方政府治理)等多项科研项目,在 CSSCI 刊物上发表学术论文 40 多篇,被三大文摘和人大复印资料转载十几篇次,出版编著或参与编著学术专著多部。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

沈威丨人工智能视域下语言研究方法的革新

2026年3月31日 09:02

徐惠 2026-03-31 09:02 江苏

沈威探析GLLMs革新语言研究,述其优势应用并指出问题与展望。

转载自“语言治理研究中心”

人工智能视域下语言研究方法的革新

沈威

摘 要:生成式大语言模型(GLLMs)在语言研究中的应用日益深入,尤其在自然语言处理方法上取得了显著进展。本文首先回顾了传统人工智能方法的局限性,如灵活性差和对数据的强依赖性;与之相比,GLLMs凭借Transformer架构、大规模预训练数据和优秀的泛化能力,克服了这些挑战,为语言研究提供了新视角。接着分析了GLLMs的四大优势:提升上下文感知与长距离依赖能力、增强语言学习与迁移能力、支持多模态融合以扩展研究深度,以及在低资源语言中的适应性。此外,还探讨了 GLLMs在语义分析、语言演化、跨语言学习、生成式语言实验、多模态融合、语言理论验证与推导以及论文辅助写作等七个领域的应用。研究表明,GLLMs 不仅推动了语言学理论的发展,还提供了有效的工具,尽管面临计算成本等挑战,但其发展潜力依然巨大。同时,需要注意GLLMs可能带来的文化偏见、语言单一化趋势及内容生成中的"幻觉"现象,这些问题对语言研究的可靠性和公平性提出了挑战。未来研究应在充分发挥GLLMs优势的同时,尽量避免其缺点与不足,以促进语言研究的健康发展。本研究为语言学理论与技术的交叉发展提供了新思路,并为未来研究方向奠定了基础。

关键词:人工智能;语言;生成式大语言模型

一、传统人工智能方法概述

人工智能在语言学研究中的应用可以分为生成式大语言模型出现前与出现后两个阶段。在生成式大语言模型出现之前,自然语言处理(NLP)作为人工智能的重要分支,是语言学研究中不可或缺的技术支撑。其核心目标是借助计算机模拟人类语言的生成和理解能力,从而实现人机交互。早期的NLP技术主要包括基于规则的方法、统计模型以及词嵌入技术等,这些方法为语言学研究提供了强大的工具支持。但是这些方法也有这样或那样的不足。下面进行简要归纳。

(一)基于规则的方法

基于规则的方法是传统人工智能最早的自然语言处理方法之一。这些方法主要依赖于专家手工编写的规则和知识库,例如上下文无关语法(Context-Free Grammar)或正则表达式,用于实现词性标注、句法分析和语义解析等任务。这种方法的主要优点有:(1)规则明确,系统具有高度的可解释性P;(2)在处理某些特定场景或任务(如正式文件翻译)时表现稳定;(3)不需要大量数据支持即可实现初步的语言处理。不足有:(1)灵活性低:规则的制定需要深入的领域知识,且难以覆盖所有可能的语言现象;(2)扩展性差:语言现象复杂多变,新增语言特性时需重新设计规则;(3)维护成本高:复杂规则系统的维护和更新需要大量人工投入。例如,早期的专家系统通过编码语法规则和词汇表实现基本的句法分析。然而,这种方法对非正式语言(如方言、俚语)或新兴语言现象的适应能力稍显不足。

(二)基于统计模型的方法

随着计算能力的提升,统计模型逐渐成为自然语言处理的主流方法。这些方法通过分析大规模语料库中的词频、共现关系和概率分布来推断语言结构。常见的统计模型包括 n-gram 模型、隐马尔可夫模型(HMM)和最大熵模型等。这种方法的主要优点有:(1)灵活性较高:模型可自动从数据中学习,无需手工设计规则;(2)适用性广:能够解决多种语言任务,如机器翻译、情感分析等;(3)易于实现:基本统计模型的计算复杂度较低,适合早期的计算资源限制。主要缺点有:(1)数据依赖性强:模型效果高度依赖于语料库的质量和规模;(2)上下文感知能力弱:如 n-gram 模型只能捕捉局部上下文信息,难以处理长距离依赖;(3)易产生语言偏差:模型易受语料中偏差或噪声的影响,从而影响输出结果。

(三)基于深度神经网络与词向量技术的方法

基于深度神经网络与词向量技术的方法是自然语言处埋领域的一项重要突破。通过结合词向量技术和深度神经网络模型,研究人员能够更有效地捕捉语言中的语义和语法特性,从而提升处理复杂语言任务的能力。这种方法的主要优点如下:(1)高质量的输入特征:词向量技术(如 Word2Vec 和 GloVe)通过将词汇映射到低维向量空间,捕捉词语之间的语义和语法关系,为深度学习模型提供了高质量的输入;(2)语言序列信息建模:递归神经网络(RNN)和长短期记忆网络(LSTM) 能够基于词向量有效捕捉语言的序列信息,在文本生成、情感分析等任务中表现出色;(3)性能大幅提升:与传统基于规则或统计的方法相比,深度神经网络模型可以从数据中自动学习特征,无需手工设计规则,显著提升了模型的准确性和泛化能力。主要缺点有:(1)静态词向量的局限性:传统词向量技术生成的是静态词向量,无法根据上下文动态调整语义表示形式;(2)长距离依赖问题:RNN在处理长距离依赖时容易出现梯度消失或梯度爆炸问题,从而限制了其对复杂语言现象的建模能力;(3)高计算资源需求:尽管LSTM和GRU部分缓解了梯度问题,但它们的计算复杂度较高,对训练数据和计算资源的需求较大。

(四)基于知识图谱与语义分析的方法

基于知识图谱与语义分析的方法是近年来自然语言处理和语言学研究的重要方向之一。知识图谱通过构建词汇表征、框架结构和语义标注体系,为语言资源的语义化提供了理论基础。这种方法试图以结构化和直观的方式描述语言之间的复杂关系,为自然语言处理任务提供支持。例如,在中文动词分类研究中,知识图谱被用于分析动词与构词之间的关系,从而实现对语言现象的深入理解。这种方法的优点有:(1)语义层次清晰:知识图谱能够通过概念间的关系揭示语言的语义层次结构,有助于实现更深层次的语言理解;(2)跨领域适用性:知识图谱不仅适用于自然语言处理,还可以与其他领域(如生物学、医学等)结合,提升多学科研究的效率;(3)支持上下文语义推理:通过图结构和语义网络的推理能力,知识图谱可以有效补充上下文信息,从而增强语言模型的推理能力。缺点有:(1)构建过程复杂:知识图谱的构建需要大量的专家知识和语义标注,涉及复杂的框架设计和数据整理;(2)扩展性不足与动态更新受限:知识图谱通常是静态的,更新速度较慢,难以适应语言动态变化和新兴语言现象;(3)计算复杂度高:随着图结构规模的增大,其存储和查询的计算复杂度也会显著增加。

(五)基于机器翻译与语料库分析的方法

基于机器翻译与语料库分析的方法是自然语言处理和语言学研究的重要技术手段之一。这种方法通过处理大规模语料库数据和自动化语言翻译工具,极大地推动了语言学的研究进程与实际应用。机器翻译技术促进了跨语言交流,为多语言环境下的信息共享提供了有效手段;而语料库分析则通过挖掘语言数据中的规律性,为语言现象的研究提供了实证基础。这种方法的优点有:(1)促进跨语言交流:机器翻译技术能够快速实现不同语言间的翻译,为国际交流和多语言环境的应用提供了便利;(2)揭示语言规律:通过语料库分析,研究人员可以发现语言的使用模式、词汇频率和语法结构,从而为语言学理论提供数据支持;(3)多任务适用性:语料库分析不仅适用于语言学研究,还广泛应用于语言教育、机器翻译性能评估和语言学习材料开发等领域。缺点有:(1)对数据质量依赖性强:语料库和翻译工具的性能高度依赖于语料库的质量和代表性,如果语料中存在噪声或偏差,可能导致翻译不准确或分析结果失真;(2)稀有语言支持不足:对于低资源语言或新兴语言现象,由于数据量不足,现有方法在分析和翻译方面存在显著局限;(3)语义理解的局限性:机器翻译在处理复杂句法、隐喻表达或上下文依赖性较强的语言时,容易出现翻译误差或语义歧义。

(六)基于预训练语言模型的方法

基于预训练语言模型的方法是近年来自然语言处理领域的重大突破之一。通过在大规模语料库上进行无监督学习,预训练语言模型(如BERT等)能够捕捉语言的上下文关系和深层次语义信息,从而为多种下游任务提供通用特征支持。这种方法以其通用性和强大的泛化能力,大幅提升了自然语言处理模型的性能,并减少了对特定任务标注数据的依赖。这种方法的优点有:(1)通用性强:预训练语言模型具备强大的语义理解能力,能够适应多种语言任务,包括文本分类、机器翻译和问答系统等;(2)上下文敏感性:与传统静态词向量不同,预训练语言模型能够动态捕捉词语在不同上下文中的语义变化,极大地提升了语言表示的准确性;(3)减少数据依赖:模型可以通过无监督学习预训练获取通用知识,从而降低对标注数据的依赖,仅需少量微调即可适应特定任务。缺点有:(1)高计算成本:预训练语言模型的训练过程需要大规模数据集和强大的计算资源,例如,BERT使用了双向Transformer架构,其训练成本极高;(2)难以处理低资源语言:尽管预训练模型对高资源语言的支持较好,但对于低资源语言,由于缺乏足够的训练语料,其表现仍显不足;(3)模型复杂性高:预训练模型的参数量巨大,部署和运行需要强大的硬件支持,这对资源有限的场景构成了一定障碍。

传统人工智能方法在自然语言处理领域的发展经历了从基于规则的人工设计到数据驱动的深度学习转变,这一历程奠定了语言学与计算技术结合的基础。早期方法(如基于规则和统计模型的技术)提供了较高的解释性和灵活性,但由于对领域知识和数据质量的高度依赖,存在灵活性不足和处理复杂语言现象能力有限的缺陷。随着计算能力的提升,深度学习方法结合词向量技术,实现了对语言语义和语法特性的高效建模,显著提升了模型的泛化能力。然而,这些方法通常伴随高计算成本及对训练数据的依赖。近年来,知识图谱与预训练语言模型的引入为 NLP 技术注入了新的活力,通过捕捉上下文语义关系和构建语言的深层次表征,为多领域、多任务的应用提供了广泛支持。尽管如此,这些方法在低资源语言、动态语言变化以及高效计算等方面仍面临挑战。总体来看,上述技术迭代清晰展现了人工智能在语言学研究中从初步探索到广泛应用的演进轨迹。

二、生成式大语言模型的主要优点

生成式大语言模型(Generative Large Language Models,GLLMs)的兴起为自然语言处理和语言学研究开辟了新的研究路径,成为推动这一领域技术发展的重要里程碑。这些模型以深度学习技术为核心支撑,融合了创新的模型架构、大规模数据训练以及卓越的泛化能力,从根本上改善了传统NLP方法的局限性,为语言研究提供了丰富的工具与理论支持。以下从模型架构、数据的预训练、泛化能力以及多模态融合等方面系统归纳其主要特点与优势。

(一)创新的模型架构提升了语言建模的效率和性能

生成式大语言模型基于创新的模型架构,尤其是Transformer架构的引入,为自然语言处理任务带来了显著的性能提升。Transformer 架构采用自注意力机制(Self Attention Mechanism),能够动态地捕捉语言序列中词语间的远距离依赖关系,并实现多层语义表示的高效建模。这一特性显著增强了模型的语言理解与生成能力,为克服传统NLP方法在上下文感知和长距离依赖建模中的不足提供了有效的解决方案。此外,MoE模型(Mixture of Experts)通过引入多个专家网络,每个专家专注于特定的任务或数据模式,每个输入仅激活少数专家进行处理,从而实现稀疏激活并降低计算复杂度,进而提升语言模型的效率和性能。

(二)大规模数据的预训练强化了语言知识的学习能力

生成式大语言模型依赖于大规模数据的预训练,展现了强大的语言知识学习能力。通过在海量多样化的无监督语料库上进行预训练,这些模型得以学习语言的语法规则、语义特性以及跨领域知识,并形成通用的语言表示。这种基于无监督学习的预训练模式,不仅降低了对任务特定标注数据的依赖,还为后续任务提供了强大的迁移学习能力。借助这一特性,生成式大语言模型可以通过少量的微调适配多种语言任务,例如机器翻译、文本生成、情感分析和问答系统等,大幅提升了语言学研究的效率与精度。

(三)卓越的泛化能力增加了语言研究的适用性和灵活性

生成式大语言模型展现出卓越的泛化能力,为语言研究提供了更广泛的适用性和更强的灵活性。传统NLP方法通常对高质量标注数据和特定领域的知识依赖性较强,而生成式大语言模型通过其庞大的参数规模和预训练阶段学习到的丰富的语言特性,能够在低资源语言和新兴语言现象中展现出较高的适应性。此外,这些模型的多语言能力也为跨语言研究、语言迁移学习和语言多样性保护提供了技术支持,进而推动了多语言环境下语言研究的快速发展。

(四)多模态融合拓宽了语言研究的深度和广度

生成式大语言模型为多模态语言研究开辟了新的方向。通过将语言建模与视觉、语音等其他模态数据融合,这些模型能够实现跨模态信息的综合理解与生成,为语言学的多模态研究提供了更加全面的工具支持。例如,生成式大语言模型已被成功应用于多模态文本生成、跨模态问答和语义融合任务中,为语言学研究的多维探索提供了更多可能性。

综上所述,生成式大语言模型的出现,不仅突破了传统NLP方法的技术瓶颈,还为语言学研究提供了全新的视角与工具。生成式大语言模型在模型架构、数据的预训练、泛化能力及多模态融合方面的优势,为未来语言研究与自然语言处理领域的进一步发展奠定了坚实基础。随着技术的不断进步,生成式大语言模型在语言研究中的应用前景将更加广阔。

三、生成式大语言模型为语言研究带来的新方法

生成式大语言模型以其卓越的自然语言处理能力和跨领域知识整合能力,为语言研究带来了前所未有的方法。这些新方法通过模型在语法、语义、语用等不同语言层面的深层次应用,不仅拓宽了传统语言学研究的边界,还促进了多模态与跨语言研究的深度融合。

(一)基于上下文感知的动态语义分析方法

生成式大语言模型具备强大的上下文感知能力,使得语言研究能够动态捕捉语义变化,超越传统静态分析框架。与传统词向量技术(如Word2Vec)生成的静态词向量不同,GLLMs能够根据句子的语境实时调整词汇的语义表示,极大地提高了对多义词、隐喻、歧义等语言现象的解释能力。例如,生成式大语言模型(如GPT-4o等)的上下文感知机制可以在语境中捕捉复杂的词语关系,使语言研究者能够更准确地分析语句中的语义层次。GLLMs不仅能够为语言学者提供细粒度的语义变化数据,还能通过大模型自动生成实验语料,快速识别不同文本语境下的语义迁移现象。这在分析多义词的词义扩展、语言隐喻演变以及特殊语境下的语言歧义等方面发挥着重要作用。

基于上下文感知的动态语义分析方法的常见使用场景有:(1)隐喻识别和歧义消解:GLLMs可用于捕捉和分析不同语境中隐喻表达的变化,并在歧义语境中提供上下文敏感的词义解释;(2)语义角色标注:借助预训练语言模型,研究者能够在较少人工标注的情况下,高效地实现复杂语义角色标注;(3)语言认知实验设计:GLLMs支持通过模拟不同类型语言输入条件,设计和验证关于语义推理、歧义处理的认知实验,为语言心理学研究提供工具。

(二)数据驱动的语言演化研究

GLLMs通过大规模语料库的预训练,捕捉到语言使用中的动态变化,为语言演化研究提供了丰富的实证支持。传统语言演化研究主要依赖于历时语料和语言记录,数据受限于历史文献和人力资源。GLLMs能够通过分析不同时期、不同地域的语料,揭示词汇、语法结构等语言要素的变化趋势。通过生成大量跨时代、跨文化的模拟语料,GLLMs能够分析语言变化过程中的复杂机制,如语法简化、词汇扩展、语义漂移等。此外,研究者可以借助模型检测语言接触和混合的现象,为语言变异理论提供强有力的数据支持。

基于数据驱动的语言演化研究的常见使用场景有:(1)新兴词汇追踪:借助GLLMs,可以自动追踪新词和流行语的出现与扩散,分析它们的使用频率和语义演变过程;(2)语言接触与混合现象:GLLMs可以有效识别和分析不同语言接触中的词汇借用和语法混合现象,为多语言环境下的语言变异研究提供支持;(3)语言稳定性与变化性研究:通过自动生成和对比不同历史时期的语言数据,研究语言稳定与变化的动态平衡机制。

(三)跨语言研究中的迁移学习方法

得益于GLLMs的多语言预训练能力,跨语言迁移学习方法已成为语言研究中的重要工具。GLLMs能够在多语言环境下学习并迁移语义和语法特征,从而在低资源语言的研究中表现出色。与传统方法相比,这种迁移学习方法极大降低了对标注数据的依赖,使得低资源语言的语料分析和模型构建更加高效。GLLMs还可以为语言结构对比研究提供便利,例如比较不同语言中的词序、句法结构差异以及语言接触过程中形成的混合语现象。此外,GLLMs能够捕捉不同语言中词义在语境中的变化,为多语言认知理论提供数据支持。

基于跨语言研究中的迁移学习方法的常见使用场景有:(1)低资源语言语法分析:将在高资源语言上预训练的模型迁移到低资源语言,研究者可以快速构建语法分析器和语言模型;(2)语言间语义对齐:GLLMs在不同语言之间实现语义对齐,为跨语言信息检索和机器翻译提供了技术支撑;(3)语言相似性与差异性研究:研究者可利用GLLMs进行多语言并行语料分析,揭示不同语言间的共性与差异,为语言谱系学研究提供参考。

(四)语用研究中的生成式语言实验

传统语用研究通常依赖于定性分析和小规模实验数据,而生成式大语言模型提供了生成式语言实验的新途径。通过生成不同语境下的对话和文本,研究者能够设计大规模的语用实验,研究诸如礼貌策略、言语行为、会话含义等语用现象。GLLMs不仅能够生成不同文化和社交情境下的对话,还能模拟语境变化对语用策略的影响,从而构建各种资源库。这为跨文化语用学、言语行为理论的验证、礼貌理论的扩展以及构建教学资源等方面提供了重要数据支持。研究者利用大语言模型构建学习资源为汉语学习者提供个性化的语言支持、符合汉语特点以及符合国际中文教学实践的文化资源,大大弥补了传统教学资源不足的问题。此外,研究者还可以利用GLLMs模拟语用策略在不同语境中的演变,例如探讨语言中礼貌、间接表达和文化差异如何随时间和情境变化。

基于生成式语言实验的常见使用场景有:(1)礼貌策略分析:GLLMs生成的对话数据可用于模拟和分析不同文化背景下的礼貌用语变化;(2)会话分析:通过生成不同语境下的对话,研究者能够系统分析会话中的语用策略,如合作原则、面子威胁和修辞策略;(3)虚拟语用实验平台搭建:基于GLLMs,研究者可以搭建虚拟实验平台,测试特定语境下的语言交互效果。

(五)基于多模态融合的语言研究

GLLMs支持语言与其他模态(如图像、音频等)的融合,为语言研究提供了更广阔的视野。在传统语言学研究中,语言与视觉、听觉等模态的交互通常分开研究,而GLLMs通过多模态学习,使语言研究进人更加全面、动态的阶段。多模态语言研究不仅限于语言与视觉的简单结合,还涉及手势、表情、声调等非语言模态与语言内容的交互。例如,在手语研究中,GLLMs可以融合手语视频与口语文本,揭示其内在联系,为手语翻译和语言学习提供支持。多模态分析方法在儿童语言发展、情感计算等领域展现出广泛应用。例如,研究者可以分析儿童在语言学习过程中如何通过视觉线索和语音线索建立词汇语义联系。

基于多模态融合的常见使用场景有:(1)视觉语义关联分析:GLLMs结合视觉信息,可以研究文本描述与图像内容之间的语义关联,从而推动语言在视觉场景描述、图片标注等任务中的应用;(2)手语和口语的融合研究:通过多模态数据,研究者能够分析手语与口语之间的对应关系,为聋哑人语言研究和翻译提供新的方法;(3)跨模态情感分析:通过融合文本、语音和视觉信息,研究不同模态间的情感表达和语用策略。

(六)自动化语言理论验证与推导

生成式大语言模型能够自动生成大量语言数据,为语言理论的验证和新假设的推导提供实验基础。研究者可以通过生成不同语法结构的句子,验证特定语言规则或语法假设,甚至推导出新的语言规律。GLLMs还能够通过模拟语言变化,探索特定语言现象的演变过程,如语言接触、音变规律等。这种自动化生成与分析能力,为语言学的理论发展提供了丰富的探索空间。GLLMs在生成复杂句法结构、语言变体分析以及音韵变化模拟中表现突出。例如,研究者可以利用 GLLMs 在虚拟实验环境中生成不同的语法变体,并分析它们的语用效果和可接受性。

基于自动化语言理论验证与推导的常见使用场景有:(1)句法结构生成与验证:利用GLLMs生成的句子,研究者可以验证生成语法理论中的结构规则;(2)新语法假设的自动推导:通过分析模型生成的数据,研究者可以推导出未被传统理论覆盖的新语法现象,为语言研究提供新的探索方向;(3)语言规则变化模拟:GLLMs 能够模拟语法规则在特定语言环境中的变化,为语言演化和变化研究提供实证数据。

(七)论文辅助写作中的应用

生成式大语言模型在论文写作过程中发挥了至关重要的作用,为语言学研究提供了强有力的支持,不仅能够为研究者提供丰富的参考文献、精准的数据支持,还能激发创新的研究思路。这些模型的应用显著提高了写作效率与质量,助力研究者在学术研究中实现突破、取得进展。GLLMs 通过生成逻辑严密、结构清晰的段落,帮助研究者在短时间内高效构建文献综述、研究方法等核心内容,从而节省了大量的写作时间。此外,GLLMs不仅限于为写作提供高效支持,还能够为研究者提供跨学科的多元化思路,帮助突破学术思维的惯性,开辟全新的研究方向。

在论文写作辅助的应用中,GLLMs展现了多种关键功能,主要包括:(1)启发研究思路:GLLMs通过分析大量文献和数据,生成研究问题,假设和论证框架,帮助研究者拓展思路,挑战现有理论,推动学术创新;(2)自动生成段落:GLLMs 根据学术标准自动生成高质量、逻辑严密的段落,提升写作效率,节省编辑时间;(3)数据分析与可视化:GLLMs支持复杂的数据分析与可视化,帮助研究者深入理解数据趋势,为实证分析和理论研究提供支持。

结语

本文深入探讨了生成式大语言模型在语言研究中的革新性作用,并通过分析传统人工智能方法与现代生成式大语言模型的优势与局限性,全面展示了人工智能技术在语言学领域的演进。文章从传统基于规则、统计及深度学习等方法的发展历程,到 GLLMs的创新架构与预训练机制的优势,逐步揭示了新一代语言模型如何打破传统方法的局限,推动语言学研究向更深层次、更广泛的方向发展。通过分析生成式大语言模型所带来的新方法,包括上下文感知的动态语义分析、数据驱动的语言演化研究、跨语言迁移学习等,本文明确指出,GLLMs 不仅在语法、语义、语用等层面为语言学提供了更加高效、精准的研究工具,还通过多模态融合为跨学科研究开辟了新的可能性。这些新兴方法让语言学的研究视野得以拓展,为语言的认知、演化、交际和多样性保护提供了前所未有的支持。

此外还要特别注意GLLMs可能导致的一些问题。首先,GLLMs在内容生成过程中可能出现文化偏见,随着模型规模和应用领域的扩展,如何规避技术带来的文化刻板印象成为待破解的重要课题。其次,语言单一化趋势可能对全球语言多样性构成潜在威胁,未来研究应深人分析这一问题,并探索促进语言多样性保护的有效策略。最后,值得关注的是,当前GLLMs还可能产生“幻觉”现象,即生成的内容在某些情况下与事实或逻辑不符,存在虚假或不准确信息,这一问题对研究结果的可靠性提出了挑战,需要在后续研究中予以重视并加以解决。

展望未来,随着技术的不断进步与模型规模的不断扩展,GLLMs将在语言学研究中发挥越来越重要的作用。未来,我们可以预见到以下几个发展趋势:首先,模型的精细化与个性化将成为焦点,研究者可以根据不同的语言需求开发定制化的模型,满足更多特定领域的需求;其次,跨学科的多模态融合应用将进一步深化,结合视觉、音频等其他模态的语言研究将极大拓展语言学的研究边界;最后,低资源语言的研究将得到更多关注,GLLMs通过迁移学习和跨语言研究,能够为低资源语言的保存与传承提供强大的技术支持。

总的来说,生成式大语言模型不仅是人工智能技术的飞跃,也为语言学研究带来了前所未有的变革。随着这些技术的不断发展与应用,未来的语言学研究将更加深入、多元与精细,推动着人类对语言本质的理解不断迈向新高。

作者简介

沈威,博士,华中师范大学语言与语言教育研究中心副教授,主要研究方向为中文信息处理、现代汉语语法,联系方式:sw@ccnu.edu.cn。

本文来源:沈威(2025)人工智能视域下语言研究方法的革新[J].《语言治理学刊》第四辑,第109-122页。

学术著作

语言学研究成果速递:语言学联合书单202507

语言学研究成果速递:语言学联合书单202506

语言学研究成果速递:语言学联合书单202505

冯胜利|语言学是科学——科学语言学

杨贝:互动视角的汉语儿童问句习得研究

张素敏、任宇红:二语信息加工中的社会情感认知

孙毅教授:当代隐喻学理论流派新发展研究

孙毅:隐喻意义机制阐发驻足回眸

语言学研究成果速递:语言学联合书单202508

汉语“动+介+宾”结构的构式化与构式演变:语言学联合书单202509

语言学最新研究成果速递:语言学联合书单202510

南京师范大学梁丹丹教授团队研究成果出版

浙江大学庄初升教授国家社科基金优秀结项成果出版

南京师范大学梁丹丹教授团队主编《中国语言健康服务调研报告(2024)》出版

Christelle Gillioz&SandrineZufferey:语言学实验研究方法

国社科申报在即,《人文社科项目申报:极简300问》开启预售

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

❌