普通视图

Received today — 2026年2月3日12 - 南京师大比特人文公众号

征稿通知 | 第二十届全国知识图谱与语义计算大会(CCKS 2026)

2026年2月2日 00:02

徐惠 2026-02-02 00:02 江西

CCKS 2026西安8月举办,征相关中英文论文及开放资源,5月30日截稿

转载自“中国中文信息学会”

会议时间:2026821-23

会议主页:https://sigkg.cn/ccks2026/

全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic ComputingCCKS)由中国中文信息学会语言与知识计算专业委员会主办,大会源自中文知识图谱研讨会(Chinese Knowledge Graph SymposiumCKGS)和中国语义网与万维网科学大会(Chinese Semantic Web and Web Science ConferenceCSWS),2016年两会合并,CCKS 2016201720182019202020212022202320242025分别在北京、成都、天津、杭州、南昌、广州(线上)、秦皇岛、沈阳、重庆、福州举办。全国知识图谱与语义计算大会已经成为国内知识图谱、语义技术等领域的核心学术会议,聚集了知识表示与推理、自然语言理解与知识获取、图数据管理与图计算、智能问答等相关技术领域的学者和研发人员。

第二十届全国知识图谱与语义计算大会(CCKS 2026)由西安交通大学承办,将于2026821日至23日在西安召开。

本届大会的主题是“知识、记忆与认知推理”,旨在探讨知识记忆机制与认知推理之间的深度融合与协同演进。大会将聚焦知识表示、知识存储、知识挖掘、知识融合、知识推理、可解释性、记忆增强、认知计算等知识图谱与大模型关键技术,引导知识驱动的新一代认知智能理论技术突破与产业应用发展。大会议程将包括讲习班、大会特邀报告、前沿趋势论坛、工业界论坛、青年学者论坛、评测与竞赛、论文报告、海报与系统展示等环节,邀请国内外知名学者介绍相关领域的最新进展和发展趋势,邀请产业界知名研发人员分享实战经验,促进产学研合作。

除研究论文与应用论文之外,本届大会将继续设置知识图谱与大模型开放资源主题,旨在支持并推动学术界和工业界的数据资源共享。资源包括但不限于:知识图谱/本体、大模型、数据集/评测集、软件工具/服务/API/框架、协议/标准规范等,并鼓励将资源发布在开放知识图谱社区(OpenKG)。审稿人将从资源的质量和潜在影响力、可复用性(例如说明文档)、可获得性(例如网址和开源协议)等维度综合评价资源和论文的质量,OpenKG将对入选的开放资源进行宣传推广。

大会诚挚邀请相关领域的学者和研发人员将未经发表的成果投稿英文和中文论文。英文投稿篇幅不超过12PDF中文投稿篇幅不超过8PDF,以上篇幅限制均包含参考文献、附录等所有内容。研究与应用论文采用双盲审稿机制,投稿不应在作者、正文、脚注、致谢、引用等任何地方透露作者信息,否则将被拒稿;知识图谱开放资源论文采用单盲审稿机制,投稿应包含作者信息和资源网址。稿件模版如下:

录用的英文论文将收录于Springer出版的论文集,优秀英文论文扩展后将被推荐到《Tsinghua Science and Technology》、《Journal of Computer Science and Technology》、《Knowledge Engineering Review》、《Data Intelligence》等相关期刊;录用的中文论文将被推荐到《清华大学学报(自然科学版)》、《中文信息学报》、《北京大学学报》等相关期刊。期刊将对推荐论文进行二次审查,并决定是否发表。

论文主题包括(但不限于):

  • 知识表示与知识图谱推理,例如本体建模与演化、知识图谱表示学习、知识图谱推理补全;

  • 知识图谱构建与知识集成,例如实体/关系/事件抽取、多模态知识获取、本体匹配、实体对齐等;

  • 图数据库与知识管理,例如图数据库的架构设计、图查询语言、图数据库索引技术、图数据库在知识管理中的应用等;

  • 知识图谱增强的大模型,例如知识图谱增强的大模型训练/认知推理/可解释性、知识记忆机制、知识记忆增强等;

  • 知识图谱与大模型应用,例如语义搜索、问答与对话、检索增强生成、大模型智能体、政务/科技/教育/医疗等领域应用;

  • 知识图谱与大模型开放资源,例如领域知识图谱/大模型、知识图谱/大模型评测方法与评测集、工具等。

投稿网址:https://openreview.net/group?id=cipsc.org/CCKS/2026/Conference

重要日期:

  • 论文全文提交:2026530日(23:59,北京时间)

  • 审稿结果通知:202663023:59,北京时间)

  • 论文正稿提交:2026710日(23:59,北京时间)

有关投稿的疑问,请发送邮件至:ccks_2026@163.com

大会组织:

主办单位:中国中文信息学会语言与知识计算专业委员会

承办单位:西安交通大学

大会荣誉主席:
郑庆华(同济大学、西安交通大学)

大会主席:
田锋(西安交通大学)
刘均(西安交通大学)
刘铭(哈尔滨工业大学)

程序委员会主席:
吴天星(东南大学)
张静(中国人民大学)
师斌(西安交通大学)

本地主席:
张兴军(西安交通大学)

前沿趋势论坛主席:
徐童(中国科学技术大学)
陈玉博(中央民族大学)

青年学者论坛主席:
赵翔(国防科技大学)
何世柱(中科院自动化所)

讲习班主席:
张宁豫(浙江大学)
王萌(同济大学)

评测主席:
刘井平(中山大学)
毕胜(东南大学)

工业界论坛主席:
胡伟(南京大学)
张梦迪(衍形科技)

出版主席:
林鸿宇(中科院软件所)
宋伊萍(国防科技大学)

宣传主席:
陈文亮(苏州大学)
胡琳梅(北京理工大学)

海报/演示主席
柳厅文(中科院信工所)
罗凌(大连理工大学)

赞助主席:
李直旭(中国人民大学)
高桓(慢点知微)

注册主席:
孙凯(西安交通大学)

网站主席:
王宇翔(杭州电子科技大学)
彭祯(西安交通大学)

领域主席:

知识表示与知识图谱推理
孙泽群(南京大学)
曹鹏飞(中科院自动化所)
知识图谱构建与知识集成:
曾道建(湖南师范大学)
盛泳潘(西南大学)
图数据库与知识管理:
金海龙(南京理工大学)
陈永锐(东南大学)
知识图谱增强的大模型:
宋凌云(西北工业大学)
陈想(南京航空航天大学)
知识图谱与大模型应用
邓淑敏(新加坡国立大学)
徐康(南京邮电大学)
知识图谱与大模型开放资源:
马杰(西安交通大学)
高峰(武汉科技大学)


比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Agent模式重构工作新范式 | TF技术前线177期报名

2026年2月2日 00:02

徐惠 2026-02-02 00:02 江西

2月6日CCF TF177期,聚焦Agent模式应用,邀专家分享实践与思路。

转载自“中国计算机学会”

导语:本期会议将聚焦「Agent模式」在实际业务场景中的应用,围绕大模型能力不断升级的背景下,探讨Agent模式如何提升工作效率、重塑工作范式。来自微软、腾讯等头部企业的AI技术专家及多位行业资深大咖,将分享Agent模式在各自领域的最佳实践案例,并深入解析其对行业工作方式带来的深刻影响,为各行业在AI应用与Agent模式提效方面提供思路启发与实践参考。


为工程师提供顶级交流平台


CCF TF技术前线 第177期

时间:

2026年2月6日

19:00-21:30

主题:

Agent模式重构工作新范式

所属SIG:

架构SIG

欢迎扫码了解详情和报名参会

报名链接:https://ccf.org.cn/177


一、会议亮点

大模型技术席卷全球之际,模型能力飞速演进,Agent模式正加速成为AI应用的主流形态:在显著提升工作效率的同时,也在深刻重塑各行业的工作范式。本期我们邀请来自微软、腾讯等前沿企业的技术专家,以及在AI应用与Vibe Coding领域深耕多年的资深大咖,分享Agent模式在各自领域的最佳实践,并系统解析其对行业工作方式的长期影响。

本期会议将汇聚Agent模式应用方向的一线专家,围绕「大模型与业务工作的深度融合」重点展开三大议题:

① AI应用如何演进至Agent模式,以及这一演进对业务与团队协作带来的变化;

② AI Agent模式在实际工作场景中的核心优势与当前落地过程面临的主要挑战;

③ AI Agent模式如何在企业级开发体系中真正沉淀为可复制、可规模化的高效生产力。

会议将系统介绍行业领先的AI Agent模式在典型业务场景中的落地路径与技术方案,并结合大量真实案例进行拆解,为各行业在AI应用与Agent模式提效方面提供可借鉴的思路、方法与实践参考。


二、会议安排

TF 177Agent模式重构工作新范式(02.06)

主持人:李庆丰

时间

主题

讲者

19:00-19:05

活动介绍

李庆丰(主持人)

19:05-19:10

开场致辞

杨卫华(TF主席)

19:10-19:40

进化中的智能体应用开发

武帅

(微软)

19:40-20:10

打造全天候多Agent人机高效协同网络

揭光发

(腾讯)

20:10-20:40

大规模Vibe Coding新范式,从忘记代码开始

胥克谦

(AI资深专家)

20:40-21:10

基于大语言模型的软件开发方法论

沈欣

(行业协会)

21:10-21:20

参会者提问互动

全员

21:20-21:30

活动总结

杨卫华(TF主席)

三、特邀讲者

武帅

微软全球黑带技术专家


主题:进化中的智能体应用开发

个人简介:微软全球黑带技术专家,长期从事零售、制造和教育行业的咨询与布道工作,曾出版《Web前端测试与集成》和《数字化转型实践-构建云原生大数据平台》等书籍。目前专注于大中华区企业研发转型,致力于通过人工智能等新兴技术助力企业研发提效。

主题介绍:本次演讲将围绕智能体应用开发的演进路径展开,探讨从早期的 Prompt驱动,到具备规划能力、执行能力和反馈闭环的Agent,再到面向企业场景的Agentic Workflow与平台化编排。我们将结合真实开发与落地案例,分享在工程实践、架构设计、治理与安全、以及生态选择上的关键思考。

揭光发

腾讯云架构师联盟社群管理主席、腾讯专家工程师


主题:打造全天候多Agent人机高效协同网络

个人简介:20年研发与团队管理经验,前腾讯云TVP,现腾讯全栈技术专家,公司级低代码项目负责人,是IEEE低代码标准及大湾区企业低代码标准的主撰写人;大模型应用早期实践者与布道师,是国内顶级行业/技术峰会相关话题优秀讲师及出品人。在低代码与LLM结合场景有深度的实践,愿景是“人人能编程”。带领团队深度践行LLM对研发提效、探索Vibe coding 在专业程序员与准开发者群体的落地,个人代码全栈AI含量几近100%。

主题介绍:本分享将披露一个AI Native的开发者,是如何一步步升级自己的“人与AI的协作范式”。最初,通过Human-in-the-Loop MCP工具让桌面端Agent 能主动通过企业微信联系我,即使离开电脑也能随时反馈和决策,大幅提升AI工作饱和度。进一步,我构建了自己的可编程Agent工作平台,将Agent 网络与企业微信双向打通,让我可以随时随地发起任务、接收反馈、实时协同。但随着并行的Agent任务增多、任务变复杂,我发现自己陷入了心力消耗的泥潭——而一个AI原生的PM Agent,正是这个问题的解决之道!

胥克谦

资深产品经理

主题:大规模Vibe Coding新范式,从忘记代码开始

个人简介:资深产品经理,十余项教育科技创新大奖获得者,挑战国内最大单人单项目Vibe Coding项目规模,已完成代码量近200万行、资产文档超1400万字。

主题介绍:Vibe Coding不适合大型项目开发?编程幻觉不可控?大量充斥硬编码伪数据?不存在的,只是因为用新瓶装了旧酒。分享单人挑战超大规模项目开发的工程化开发实践与方法。

沈欣

广东省连锁经营协会技术委员会主席、上海交通大学终身教育学院特聘讲师、中国信通院低代码委员会顾问

主题:基于大语言模型的软件开发方法论

个人简介:广东省连锁经营协会技术委员会主席、上海交通大学终身教育学院特聘讲师,中国信通院低代码委员会顾问,曾任喜茶数字化高级副总裁,曾任百果科技首席技术市场官,百果科技首任轮值主席,曾任和君咨询合伙人、上海齐扬软件技术有限公司总经理。腾讯云TVP,资深AI应用专家。

主题介绍:AI Coding要真正在企业级开发中成为生产力,必须有相匹配的落地方法论,本PPT将介绍在企业中落地的实践和思考,通过DADD(文档AI驱动开发)的整套体系,构建可持续的软件生产力平台。

四、SIG主席

杨卫华

CCF TF主席&架构SIG主席、Westar Labs实验室创始人

个人简介:杨卫华(Tim Yang),Westar实验室创始人兼CEO、中国计算机学会TF主席及架构SIG主席。专注技术创新,拥有丰富的互联网架构及管理经验。曾任新浪微博研发副总经理,包括微博整体架构工作,主导了海量及峰值访问处理、混合云架构及开放平台等多个关键技术领域的工作。

李庆丰

CCF TF架构SIG联席主席、新浪微博高级总监

个人简介:李庆丰 新浪微博高级总监,负责微博信息流、流媒体、基础架构等核心服务的工程架构和技术研发工作;同时作为微博AI研发提效工具研发及应用负责人。在高可用架构、云原生技术、流媒体、AI应用技术方面有丰富的研发和管理经验。新浪集团技术委员会委员,中国计算机学会CCF-TF架构sig主席,腾讯云TVP。技术社区的拥护者,多次担任业界前沿技术大会的讲师及出品人。


1


参会说明:

1、活动采取腾讯会议+视频号线上模式,请于活动前一天15:00完成报名,获取会议链接

2、会议链接和密码将在活动当天,通过邮件、短信通知

3、CCF会员免费参加,非会员99元/次,加入会员可免费参与线上活动,现在入会即可免费参与

2


联系方式:

邮箱:tf@ccf.org.cn

电话:010-62600329 分机号28

关于TF:

CCF 技术前线(TF),是专为企业一线工程师搭建的合作交流平台,通过12个SIG(特别兴趣小组)覆盖人工智能、云原生、安全工程、智能制造等核心领域,聚焦技术落地痛点,助力工程师突破职业瓶颈。


比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Received before yesterday12 - 南京师大比特人文公众号

程 宁 | 唐诗语体的历时演变——以虚字使用密度为中心

2026年2月1日 00:01

程  宁 2026-02-01 00:01 江苏

以虚字使用密度为中心,探讨唐诗语体历时演变及与诗文散化、宋调关联。

转载自“山东社会科学”

点击蓝字 关注我们

2025年第11期

2025.11

作者简介

程宁,清华大学文学博士,中国社会科学院文学研究所助理研究员、数字人文与计算批评实验室成员,兼任中国民族语言学会语言资源与计算人文专委会理事,主要研究方向为计算语言学、计算诗学、古典知识库、数字人文,申请国家专利1项,计算机软件著作登记1项,在《清华大学学报(哲学社会科学版)》、《中文信息学报》、国际数字人文大会(ADHO)等发表论文数篇,被《中国社会科学文摘》、人大复印报刊资料转载。

本文原载《山东社会科学》2025年第11期,参考文献及注释参见本刊原文。欢迎转发与授权转载。如需转载请联系0531—82866416,联系人:陈老师。转载请注明来源!配图均来自网络。

[摘  要]虚字涌现是诗歌散文化书写的重要标志。从词频偏移检测的角度出发,可以清晰地发现,韩愈“以文为诗”的创作实践与唐诗总体相比,其最显著的用词差异是虚字的凸显。采用自动分词、词性标注、统计检验等技术手段,对《全唐诗》中的虚字进行标引,并在此基础上开展群体性的量化比较和回归分析后发现:一方面,研究结果有力佐证了钱锺书先生关于陈子昂、张九龄、李白、杜甫、韩愈等人在“诗用语助”上的精妙论断;另一方面,从整体趋势来看,唐诗近三百年间不同时段的虚字使用密度并不相同,且恰好呈现出初唐、盛唐、中唐、晚唐依次线性增长的动态过程。进一步将研究视野拓展至更大语料范围和更长历史时段,观测虚字使用的消长变化后发现:诗歌虚字密度从先秦到魏晋再到唐初呈不断降低趋势,而自初唐开始逐渐攀升,历经盛唐、中晚唐,后由宋接续并大幅增长,这正体现了中国诗歌语体形式由松到紧再由紧到松的往复变化。

[关键词]唐诗;虚字;“以文为诗”;语体演变;数字人文

2025.11

阅读导引

一、虚字使用与诗体观念

二、虚字涌现与“以文为诗”

三、虚字入诗的实相

四、余论

虚字在构成古典诗歌的语言材料中地位低微,以虚字入诗多遭讥评,而实际创作情况却大相径庭。虚字虽然无法彰显主题内容,但是能有力反映语体特点。诚如“凡多用虚字便是讲,讲则宋调之根”所言,虚字的增减变化实为揭示诗体演进规律的重要线索。回顾既有研究,学界关于虚字的探讨多局限于对个别诗人、单篇作品中虚字修辞功能的分析,侧重于定性解读,而缺乏在全时段、全样本视野下的量化比较研究。有鉴于此,有必要引入自然语言处理技术,对全量诗歌数据进行系统性的虚字标引,并结合回归分析等统计方法,展开历时性、群体性的实证考察,以期破除传统诗学研究中依赖主观印象判断的局限,从量化分析的视角揭示在诗歌发展历史脉络中虚字使用所呈现的总体趋势、阶段性差异与个体化特征,进而深入探讨其与诗歌散文化倾向之间的互动关系。

一、虚字使用与诗体观念

“虚字”在古代也称为“辞”“语助”,这里的“字”多指语词而非单用字,与今天的虚词概念接近。虚字无实义,却对文意贯通至关重要。刘勰《文心雕龙》曾论及虚字对诗文创作的作用:“又《诗》人以‘兮’字入于句限,《楚辞》用之,字出句外。寻‘兮’字承句,乃语助余声。舜咏《南风》,用之久矣;而魏武弗好,岂不以无益文义耶!至于‘夫’、‘惟’、‘盖’、‘故’者,发端之首唱;‘之’、‘而’、‘于’、‘以’者,乃劄句之旧体;‘乎’、‘哉’、‘矣’、‘也’,亦送末之常科。据事似闲,在用实切;巧者回运,弥缝文体:将令数句之外,得一字之助矣。外字难谬,况章句欤!”刘勰指出了不同句位虚字的表现,并点明虚字可作“语助余声”、增强韵律,还可以“弥缝文体”、组织结构,这在一定程度上肯定了虚字的价值;然而,他仍将虚字视为一种“剩语”。

随着历代学者对虚字用法的认识持续深化,其功能和地位也随之得到进一步提升。清人刘大櫆便提及,虚字能够传递作者神态:“上古文字初开,实字多,虚字少。典谟训诰,何等简奥,然文法要是未备。至孔子之时,虚字详备,作者神态毕出。”虚字虽不直接承载实义,却能巧妙地渲染作者情感、营造文章氛围。从这方面讲,文章用虚字有其独立于实字之外的重要意义。清代刘淇《助字辨略》有云:“构文之道,不过实字虚字两端,实字其体骨,而虚字其性情也。”马建忠在《马氏文通》中亦有“实字其体骨,虚字其神情也”的类似论述,从语法角度将虚、实两字并提,使得虚字彻底摆脱了实字的附庸地位,获得了应有的重视。

虚字的使用对于古代散文来说,无疑是正当且必要的。然而,以虚字入诗,尤其入律绝,却往往会招致诗论家的各种意见。关于诗歌能否使用虚字以及应当如何使用等问题,在唐及以前讨论不多。南朝梁钟嵘曾就当时诗歌创作中存在的“用事”流俗而殆同书抄的现象提出反对意见,其中便涉及虚字的使用问题:“故大明、泰始中,文章殆同书抄。近任昉、王元长等,词不贵奇,竞须新事,尔来作者,浸以成俗。遂乃句无虚语,语无虚字,拘挛补衲,蠹文已甚。”不过,钟嵘提出的“句无虚语,语无虚字”是从用事的对立面来说的,并没有正面探讨虚字使用的问题。

真正开始正面讨论虚字入诗并进行评鉴的情况,到了宋代才逐渐增多,至明清之际则蔚为大观。宋魏庆之《诗人玉屑》论及唐人句法,专门列有“虚字妆句”和“首用虚字”条,胪列张籍“长贫惟要健,渐老不禁愁”、杜甫“飘飖搏击便,容易往来游”、钱起“乍见翻疑梦,相悲各问年”、贾岛“渐老更思深处隐,多闲惟借上方眠”等数例,这在一定程度上体现了其对虚字入诗现象的关注。元陶宗仪《南村辍耕录》引赵孟頫语“作诗用虚字殊不佳”,则体现了对虚字入诗的否定态度。持此类观点的人不在少数,以至于后来诗坛逐渐形成了“实字多则健,虚字多则弱”的主流看法。当然,也有一些论者从诗歌鉴赏角度给出了较为中肯的意见,如方回在《瀛奎律髓》中说道:“诗中不可无虚字,然用虚字而不切,则泛也。”

杜甫善使虚字,很多诗论家尽管否定虚字入诗,却唯独给杜甫开了特例,其“江山有巴蜀,栋宇自齐梁”(《上兜率寺》,第2462页),“有”与“自”二字用得极妙,两字烘托出远近数千里、上下数百年的慨叹,因而常被后人称道。明代胡震亨便是典型代表,他一方面否定虚字入诗的合理性,认为“诗用助语字,非法也”,另一方面却对杜甫“馀力浮于海,端忧问彼苍”中的虚字运用表示赞赏,认为其用而不觉,而对王孟诗作中如“畅以沙际鹤,兼之云外山”及“依止此山门,谁能效丘也”之类的虚字使用,则直言“恶矣”。清代亦有诗论家指出“炼实字易”而“炼虚字难”,这也是在说虚字在诗中很难用得恰当,需要花大功夫。

明代诗论家不仅关注诗歌能否使用虚字以及如何使用的问题,还从诗史层面注意到唐代不同时期诗歌虚字使用的演变情况。如李东阳提到盛唐诗善用虚字:“诗用实字易,用虚字难。盛唐人善用虚字,其开合呼唤,悠扬委曲,皆在于此。用之不善,则柔弱缓散,不复可振,亦当深戒。”又谢榛《四溟诗话》谈论唐代七律时提到中唐诗虚字渐多:“七言近体,起自唐初应制,句法严整。或实字叠用,虚字单使,自无敷演之病。如沈云卿《兴庆池侍宴》:‘汉家城阙疑天上,秦地山川似镜中。’……观此三联,底蕴自见。暨少陵《怀古》:‘一去紫台连朔漠,独留青冢向黄昏。’此上二字虽虚,而措辞稳帖。……中唐诗虚字愈多,则异乎少陵气象。刘文房七言律,《品汇》所取二十一首,中有虚字者半之。如‘暮雨不知涢口处,春风只到穆陵西’之类。……凡多用虚字便是讲,讲则宋调之根,岂独始于元、白?”谢榛认为,初唐七律虚字皆得其力,中唐虚字入律现象愈发泛滥而敷衍薄弱,并举了钱起、刘长卿的具体诗例,以此说明虚字多用的情况并非始于元、白,而是中唐诗人群体所共有的特点。另外,“多用虚字便是讲,讲则宋调之根”点明了虚字不仅能够体现唐人的炼字技巧,而且其数量多寡反映了唐诗语体类型的演变。

钱锺书从历时角度梳理了诗用语助的情况。他首先指出,周秦之诗骚及汉魏以来之杂体歌行多“使语助以添迤逦之概”,极观于陈子昂《登幽州台歌》、李白《蜀道难》等,宋人不能望其项背;而后结合五言用虚字的情况,提到“唐则李杜以前,陈子昂、张九龄使助词较夥。然亦人不数篇,篇不数句,多摇曳以添姿致,非顿勒以增气力”;接着又从引古文元素入诗的角度论及唐前陶渊明通文于诗,到唐人元结“语助无不可用,尤善使‘焉’字、‘而’字”,最后落到“昌黎荟萃诸家句法之长,元白五古亦能用虚字,而无昌黎之神通大力,充类至尽,穷态极妍”。

谢榛讨论的是七言律诗,钱锺书主要讨论的是五言古体诗,二者从不同体裁角度分析了唐代虚字入诗的各种表现,并且涉及具体诗人的创作特点。总体来看,初唐诗和中唐诗用虚字的目的存在差异:前者主要为了“摇曳添姿”而“得其力”,后者主要是为了“讲”而“以文为诗”。虚字入诗,一方面是为了炼字以增添艺术效果,另一方面则是为了方便叙事与议论。多用虚字使得诗歌的意象由繁到疏、逻辑由弱到强,不同位置的虚字使用还会导致句式、句法跳脱出常见的对仗模式,而不自觉地带上散文化的特征,进而让诗歌能够更自由、更丰富地抒发情感和表达思想。

二、虚字涌现与“以文为诗”

虚字的凸显是诗歌散文化书写的重要标识。韩愈作为“以文为诗”的典型代表,几乎将散文中常见的各类语助词悉数移植入诗。因此,有学者认为韩诗“非诗”,而是“带韵的散文”,这种评价从其语汇选用的角度来看有一定道理,韩诗确实不符合传统诗歌在语汇运用上的典型特征。近年来,随着自然语言处理技术不断介入古典文学研究,研究者得以借助自动词法分析手段,对韩愈与其他诗人的词频差异进行比较验证。这一研究路径具有双重意义:一方面,它能够从量化视角重新审视并深化我们对韩愈诗体特征的认识;另一方面,它也可以进一步证实虚字的频繁使用与诗歌散文化书写之间具有强关联性。

与西方语言不同,汉语书面语无词语界限,因此,若要进行词频统计,首先面临的便是分词问题。汉语的自动分词是自然语言处理领域的一项基础任务,现代汉语领域的分词效果已经达到较高水准,而在古代汉语领域,由于不同时代、不同文体的语言特性有异,且古汉语的词汇标准在汉语理论中也未见统一,这些因素共同导致古汉语自动分词模型的整体效果不及现代汉语,在古典诗歌领域尤为明显。

有不少学者曾对古典诗歌分词技术做过探讨。俞士汶与胡俊峰提出了基于互信息的概率统计模型;罗凤珠则利用诗歌典型格律节奏来划定字串;年轻一辈如张家瑞等基于BPE(Byte-Pair-Encoding)算法,依据字词共现频率进行分词;潘长在(Changzai Pan)等提出TopWORDS-Poetry方法,结合格律信息并采用贝叶斯推理模型来分词。

需要指出的是,古典诗歌的自动分词处理不可避免地会面对语义优先还是节奏优先的关键问题。以唐诗为例,仅依靠经典格律“两字组合+三字脚”显然难以应对所有情况,谢思炜曾就白居易的七言诗总结出若干特殊句法模式,这表明固定格律并非万能的。况且,《全唐诗》中古体诗占比超40%,近体诗的固定格律规则覆盖范围相对有限。另外,若仅依照传统古文的语义进行分词也不尽合理,因为这忽略了诗歌本身独特的语词组成方式以及复合式的意象特性。国内鲜有关于古典诗歌分词的标准评测体系,各家制定或依照的规范也不尽相同,因此所得到的分词结果缺乏可比性,在人文研究领域的实际应用也十分有限。

由于本研究主要关注唐诗的语汇情况,2017年出版的《全唐诗词语通释》(以下简称《通释》)为唐诗文本的自动分词提供了关键参照依据。该工具书以《全唐诗》(中华书局1960年版)与《全唐诗外编》(中华书局1982年版)所录唐诗为限,收录“词目以语词为主(包括结构较固定、用例较多的词组)”。经统计,该书语词总量超10万条,以其收词立目为基准,能够有效避免自动分词规范问题上的诸多争议。此外,《通释》的词目字形与《全唐诗》《全唐诗外编》保持高度一致,这一特性使其非常适合作为自动分词的基础词表。除《通释》外,本研究另搜集整理了包括《中国古典诗词地名辞典》等在内的其他诗词类常用词典数据,制成混合词表,去重后总计21万条。研究使用Python调用HanLP工具包,融入混合词典底表进行辅助切分,进而得到最终分词结果。模型具体配置参数如表1所示。


通过自动提取韩诗词频,并以《全唐诗》总体词频为参照,计算相对词频量差,然后将差值降序排列,可以得到韩诗和唐诗整体对比中的用词偏好。公式描述为:


其中,pi(1)指韩诗中词i出现的相对频率(即单位占比),pi(2)则是筛除韩愈作品后唐诗总集中词i出现的相对频率,δpi为两者差值,若差值为正(δpi>0),代表该词在韩愈诗中更常见;若差值为负(δpi<0),则代表该词在《全唐诗》(不含韩愈诗)中更为常见。这种基于相对词频差的计量方式简单有效,容易被传统人文学者理解和应用。为便于比较分析,根据所得差值大小对结果进行降序排列。限于篇幅,抽取出差异最大的前50词绘制成图1,进行可视化展示。

在图1中,横轴代表二者的用词倾向,纵轴则按二者用词差异程度进行排序,差异越大,排名越靠前。以“我”为例,韩愈用“我”的概率远超《全唐诗》的总体水平,因此图柱向韩愈一侧倾斜,又因其概率差值最大,故排序位列第一。通过对该图的整体观察可以发现,前人基于阅读经验对韩诗语言特点的总结,在客观的数据计量分析中得到了充分验证和量化支持。图1左侧区域能够清晰地揭示出韩诗在遣词方面偏离唐诗总体的重要特征,遍布散文字法,特别是典型的虚字如“其、之、以、所、或、于”等名列前茅,后面还有“与、而、若、何、且、当、岂、者”等虚字使用频率均超出唐诗的总体水平。反观右侧,可以发现唐诗总体中包含了大量表达情感与描绘景物的意象,如“秋、花、风、春、月、愁”等,反映了唐诗注重抒情写景、意境营造的基本特点。


图1   韩愈诗与唐诗总体词移表现

此外,左侧还可以发现大量人称代词,如“我、子、汝、吾”等,此类在古代诗文评中亦可作虚字讲。“空堂黄昏暮,我坐默不言。童子自外至,吹灯当我前。问我我不应,馈我我不餐。……其言有感触,使我复凄酸。”(韩愈《秋怀诗十一首·其八》,第3767页),多用第一人称意味着诗人的自我确认意识较强。据罗时进等人统计,“初唐诗中‘我’字使用率很低,随着向盛唐发展而渐高,李白则居于顶峰。中唐走向偏底,至白居易形成又一高峰。晚唐则又稍低,但仍超出初唐”。这在一定程度上体现了诗人的个性和时代风气变化。多用第二人称则意味着文本的对话性与叙述性较强,如“黄鹄得汝去,婆娑弄毛衣。前汝下视鸟,各议汝瑕疵。汝岂无朋匹,有口莫肯开。汝落蒿艾间,几时复能飞。”(韩愈《南山有高树行赠李宗闵》,第3829页),采用借代手法和逻辑语序生动呈现场景,体现了寓文于诗的“讲”的特质。

上述以韩愈诗为例,从其创作的诗歌总体上揭示出其虚字入诗的显著特点。吴振华指出,虚字的使用是形成韩愈“以文为诗”诗法的关键因素,对后代(尤以宋代为甚)诗歌创作规范的重建及诗歌语言的革新产生了很大影响。以散文字法、句法、章法入诗并非韩愈一人独有,尽管其诗在当时诗坛并未引起足够重视,但其承前启后的作用不容忽视。如晚唐杜牧受其影响,亦有诗多用虚字者,如“人才自朽下,弃去亦其宜。……臣实有长策,彼可徐鞭笞。如蒙一召议,食肉寝其皮。斯乃庙堂事,尔微非尔知。向来躐等语,长作陷身机”(《雪中书怀》,5944页)。

诗论家注意到虚字入诗在唐诗各阶段的表现不尽相同,但这种认识多停留在有限的阅读体验层面,未能揭示出客观整体情况。葛兆光也提到,“说唐诗多用实字宋诗多用虚字的评论家其实并没有任何统计的依据”,虚字在唐诗中的发端及其发展态势究竟如何,以议论见长的宋诗在虚字使用上是承接了唐诗语体的发展趋势,还是异军突起或另起炉灶,这些问题都需要借助远读和量化的分析手段来回答。

三、虚字入诗的实相

闻一多认为,诗的语言讲究“弹性”,“而弹性的获得,端在虚字的节省”,并提到诗从《三百篇》《楚辞》到建安(《十九首》包括在内),“五言句法之完成,不是一件了不得的大事,而句中虚字数量的减少,或完全退出,才是意义重大”。所谓诗歌排斥虚字,是相对于散文的语言特性而言。事实上,虚字作为语言的有机组成部分,在任何文体中都不可能完全退出,其使用更多地呈现为一种阶段性衰减或增多的辩证发展过程。诗歌的语言并非全然无序的堆砌,像“鸡声茅店月,人迹板桥霜”(温庭筠《商山早行》,6741页)这种名词意象并列铺排的写法并不多见。一旦进入叙事,有关时空、因果、状态的描述便不可避免地介入进来,这时虚字所能发挥的功用也就不言而喻了。韩晓光指出,尽管虚词在近体诗中的出现频率不是很高,但门类很齐全,并例证了各词类(副词、介词、连词、语气词等)皆有体现。这为本文后续对虚字的统计分析提供了可行性验证依据。

使用统计的方法考察唐诗虚字,在20世纪80年代就已出现,程湘清等人以《唐诗绝句精华》中788首绝句为对象,对近体诗中虚词的使用情况展开了调查。统计结果显示,虚字的使用数量相当惊人,平均不到五个字就有一个是虚字,其中完全不用虚字的绝句,如“日暮苍山远,天寒白屋贫。柴门闻犬吠,风雪夜归人”(刘长卿《逢雪宿芙蓉山》)这类情况仅有71首,在总数中并不占优势。近体诗尚且如此,形式更为自由的古体诗应当更为普遍。由此可见,诗歌创作使用虚字斡旋是常态。不过前人只是粗略地观察了虚字在绝句中的总体数量,既未明确交代虚字如何界分,也未能从历时角度把握唐诗整体虚字使用情况的变化,而统计虚字在不同时期的使用频率和分布模式,可以进一步窥探唐诗整体语言体式风格的转向。

古人对虚字的认知与今人有异,诗歌内容上的“写虚”和语言体式上的“用虚字”有时会混为一谈。不过,虚字本身的核心内涵古今差异不大,谢榛所论虚字和今天的虚词概念颇为接近。不同于活跃的实词系统,虚词流传至今变化较小、表现稳定,是一个相对封闭的集合。从现代语法角度来看,汉语中的虚词通常包括介词、连词、助词、语气词,主要用于体现递进、转折、并列、顺承等逻辑关系。此外,还有两类虚实界限相对模糊的词:副词和代词。副词介于实词和虚词之间,用来表示状态,其系统同样具有相对封闭性,国内语言学家吕叔湘、朱德熙、陆俭明等人均将其归为虚词类,杨伯峻《文言虚词》亦将代词划定为虚词类。代词用来指称事物,古代诗文评所论虚字亦涉及代词,如谢榛《四溟诗话》有“夏正夫谓涯翁善用虚字,若‘万古乾坤此江水,百年风日几重阳’是也”,其中“此”“几”分别对应指示代词与疑问代词。

综合古人论评情况,本研究选定介词、连词、助词、语气词、代词、副词作为虚字考察范围。采用HanLP对诗歌文本进行词性标注,参考表1所示任务组合参数配置,使用分词与词性多任务联合标注方法,词性标记选用北京大学PKU标记集。自动词性标注主要致力于解决以下三个方面的问题:其一,尽可能区分出唐诗中存在的字形相同而语义全然不同的词,如“乱花渐欲迷人眼,浅草才能没马蹄”(白居易《钱唐湖春行》,第4957页)中的“才能”是表示“方才能够”的副词,而不是表示“才智和能力”的名词;其二,结合特定上下文语境确定某一多义词的具体义项和词性,如“所思如梦里,相望在庭中”(张九龄《秋夕望月》,第591页)中的“在”是介词,表示动作、行为进行的处所、时间、范围或事物存在的位置,“李杜文章在,光焰万丈长”(韩愈《调张籍》,第3814页)中的“在”则是动词,表示“存在,在世”;其三,依句辨品,结合上下文语境确定词类活用现象,如“东风已绿瀛洲草,紫殿红楼觉春好”(李白《侍从宜春苑奉诏赋龙池柳色初青听新莺百啭歌》,第1716页),其中“绿”是形容词使动用法,包含了“绿”的动作和结果,依据词性标注原则此处应按动词处理。

表2展示了机器自动分词和词性标注的实例。需要说明的是,面对庞大数据集,人工处理能力毕竟有限,采用机器自动分词与词性标注虽难以完全避免偏误,但借助《通释》进行辅助切分,这些偏误能够被控制在较小范围内。使用同一套标准对唐诗进行处理,对其内部各阶段虚字使用差异的比较影响较小,即便数据集的精度尚未达到最优水平,仍然可以有效地呈现唐诗虚字使用的整体水平和趋势,进而得出可靠结论。这种方法论恰恰体现了基于大数据研究的核心原则——庞大的数据量能够弥补个别数据点的不精确性,从而保证整体研究结果的准确性和可信度。


为了进一步验证机器标注的有效性,我们随机抽取了200条唐诗数据,并引入人工标校对照组,开展基于多评定者的Fleiss’ Kappa一致性检验,检验结果如图2所示,Kappa值达80%,表明标注一致性较为显著。


如表2所示,词性标注方法为每个词赋予了词性标签(如副词使用“/d”标记)。根据各类虚词标签,可统计每位诗人各自作品集的虚字使用密度。为了避免不同诗人作品量差异对虚字统计造成偏差,计算平均每万词的虚字数量,公式如(2)所示。


N(i)d代表某一特定诗人或特定分期i所有作品中常用副词的总数量。这里的“常用”指标记为副词且出现频次大于5的词,目的是进一步降低生僻词的标注偏误。以此类推,N(i)p代表常用介词的总数量,N(i)c代表常用连词的总数量,N(i)r代表常用代词的总数量,N(i)u代表常用助词的总数量,N(i)y代表常用语气词的总数量,N(i)all则代表所有类型的词的总数量,Fi即为某一分期或某位诗人平均每万词的虚字使用总量。当i表示特定诗人时,通过计算Fi并将结果进行可视化呈现,可以观察不同诗人的虚字使用差异。部分唐代诗人虚字入诗密度分布情况如图3所示。


将作者大致依《全唐诗》编排顺序从左到右展开,通过观察散点分布和趋势走向可以发现,唐诗的虚字使用在整体上呈现出线性增长的动态过程。为从统计学上验证这一线性趋势,以十个数据点为单位窗口进行分段线性回归分析,拟合优度指标R2=0.818(p<0.01),表明模型拟合结果较好。具体指标值如图4所示。


如果说韩愈“以文为诗”的写作体现了一种文学自觉,那么这种群体性的动态增长趋势则更多反映了语言的自发,它并不是关键人物或外部刺激决定论所导致的,而更像是诗歌语言内部的自然演化过程。

初唐诗避用虚字,用的相对多的是张九龄,其次是陈子昂,这一现象有力佐证了钱锺书“唐则李杜以前,陈子昂、张九龄使助词较夥”的说法。盛唐诗人分布较为离散,数值方差较大,各诗人虚字使用情况并不均衡,这与诗歌主题风格的多元化和个性化发展密切相关。不同的诗歌主题和风格需要不同的语言处理方式,虚字在其中的参与程度也各有不同。这一时期韦应物、李白、高适、杜甫的虚字使用处于较高水平,而常建的虚字使用相对较少。

“诗到元和体变新”(白居易《余思未尽加为六韵重寄微之》,第5000页),标志着中唐虚字使用已经明显高于初唐时期,从图3可以看出,韩孟、元白两大诗人群体皆频繁使用虚字。尤其是韩愈远超总体水平,处于全唐最高位,显著揭示了其诗用语助“神通大力,充类至尽”的特点。其次是白居易,而后是元稹、张籍、王建,诸位写实、尚俗的风格特点正需要借助大量虚字连接意脉,以实现通俗化抒情或叙事。韩诗奇诡,白诗平易,二者诗歌创作风格迥异,而虚字使用密度却不相上下,均处于较高水平。可见诗风比语体更复杂,仅用虚字密度来表征诗风显然是不够全面和存在欠缺的。余恕诚说:“如果说韩愈用虚字增加了诗歌语言的参差错落,白居易用虚字则增加了语言的流畅便利。”不过,“多用虚字便是讲”这一点在诗歌语境中是毋庸置疑的,不管是不平则鸣的韩愈,还是娓娓道来的白居易,其诗多反映人事变迁,更加贴近世俗生活,而表示“状态”“指示”“转折”“因果”等属性的虚字是人事描写不可或缺的语言要素。中唐之后,晚唐诗人群体的虚字使用水平分布非常集中,司空图、皮日休、陆龟蒙相对高,李商隐、杜牧处于中间水平,温庭筠、李群玉则相对低,不过晚唐在总体上要高于初唐和盛唐。

上述讨论并未区分古体和近体诗,实际上,古体诗的虚字使用频率在整体上历来变化不大,而近体诗变化则更为明显。图5呈现了仅考虑律绝的情况,可以发现这种线性增长的趋势并未发生变化。


从图5密度分布来看,初盛唐近体诗整体排斥虚字。林庚曾指出:“语言的诗化,具体地表现在诗歌从一般语言的基础上,形成了它自己的特殊语言;这突出地表现在散文中必不可缺的虚字上。如‘之’‘乎’‘者’‘也’‘矣’‘焉’‘哉’等,在齐梁以来的五言诗中已经可以一律省略。”其实从魏晋六朝一直到盛唐之初,诗歌语言总体上都是虚字渐少的,不过细化到具体诗人也有例外。如陶渊明通文于诗,其作品多使虚字而与众不同。在杜甫之前,张九龄近体诗虚字使用较为突出,如其作品“海上生明月,天涯共此时。……不堪盈手赠,还寝梦佳期”(《望月怀远》,第591页)就用“共”字来烘托诗人的无尽情思。

有学者提出杜甫近体诗的虚字使用数量位居唐代诗人之首。然而,从图5可以看出,阅读经验和统计结果存在些许偏差。若仅可考察杜甫之前的唐代诗人,此说法完全成立;但在老杜之后,情况发生了变化,白居易凭借其意脉流畅、通俗浅近的笔法成为虚字使用密度最大的诗人。相较之下,韩愈的近体诗虚字使用并不算突出,处于中唐平均水平,可见其“以文为诗”的实践重点是以古文作“古诗”而非近体诗。此外值得留意的是,晚唐司空图的近体诗虚字使用亦较为凸显,位列第二。其诗熟稔散文化叙事手法,一个突出表现便是虚字连用,如“林鸟频窥静,家人亦笑慵。……华宇知难保,烧来又却修。只应巢燕惜,未必主人留”(《即事九首·其七》,第7254页),再如“醉日昔闻都下酒,何如今喜折新茶。不堪病渴仍多虑,好向湖便出家”(《丑年冬》,第7275页),“频”“亦”“又”“只应”“未必”等虚字关联词迭出,起接转衬贯通意脉,增强了诗歌的叙事性。大量虚字的穿插运用,在促使诗歌语言走向散文化与通俗化的同时,也不可避免地削弱了诗歌的空间想象和意境营造。

四、余论

上述研究仅考察了有唐一代的虚字使用情况,若进一步纳入先唐及宋代诗歌数据,从更长的历史跨度来看,则会发现虚字入诗从来不是禁忌,其在先秦至宋的使用频率呈现出动态消长的变化过程。在公式(2)中,若将i设置为不同的历史分期,便可据此计算出历代古典诗歌中虚字的使用密度,结果如图6所示。


葛兆光曾指出,“从语言上看,在中国诗史上,从古体诗到近体诗、从近体诗到白话诗这两次变化是真正的大变局,前一次变局使诗歌与散文彻底划清了界限……后一次变局使诗歌与散文又重新彼此靠拢,诗歌与散文的重新靠近其实就是所谓的‘以文为诗’”。此评可谓鞭辟入里,图中所示虚字的消长过程,可视为诗文交侵的历史过程,其趋势走向勾勒出诗歌语体由松到紧再由紧到松的往复变化。

中国早期诗歌处于诗文分离的初始阶段,其语言与日常语言差异不大,虚字的使用密度接近于散文。从先秦两汉到魏晋南北朝再到初唐时期,语言的诗化进程持续推进,这期间的突出特点便是通过语言要素的减省,使得虚字的使用频率大幅降低。这种诗化策略促使诗歌逐渐趋向意象繁密,初盛唐之际语言的诗化过程基本完成,避用虚字似乎成为潜在规则。另外,近体诗确立,严谨的声律格式与对偶模式在构建诗歌创作标准的同时,其所形成的新传统和新规范也较大程度束缚了诗歌语言的活力。近体诗标准的确立为诗歌语言的运用提供了基本框架,而规则的制定往往也孕育着“破体”的基因,它既是进行创造性表达的基础,也是驱动诗人创新的内在动力。唐皎然《诗式》有云:“作者须知复、变之道,反古曰复,不滞曰变。若惟复不变,则陷于相似之格,其状如驽骥同厩,非造父不能辨。能知复、变之手,亦诗人之造父也。”

唐代诸多诗人在虚字运用方面展现出鲜明特色,这实际上是对当时诗歌句式和词汇组合规范的一种突破。他们通过重新引入并创造性地运用虚字,达到了冲击桎梏、破体为新的目的。这不仅丰富了诗歌的内涵和表现力,也促进了诗歌语体的进一步变革。正如林庚所言:“唐诗本身当然更是丰富了深入了诗歌语言的领域……事实上还存在着从日常语言中来又回到日常语言中去,一种否定的否定的辩证发展。”虚字在唐代重新回归,在中唐时期形成一个小高峰,晚唐后又呈陡增态势,并一直延续到宋代。宋诗的虚字使用密度远在唐诗之上,超越魏晋,仅次于先秦。这一数据表现为唐诗多用实字而宋诗多用虚字的阅读感受提供了客观的统计依据。

虚字的增减只是表象,实际上,它意味着诗歌在语体建构方式上的深层转变,而这种转变恰恰反映了创作主体对“何以为诗”与“因何为诗”的进一步探寻与思考。唐诗主情,宋诗主理,如今已成定论。由于“理”的表达需要主客体间清晰的信息传递,要求逻辑严谨、意脉流畅,故而带有极强的散文化倾向。这或许正是宋诗虚字显著高于唐诗的原因所在。在讨论唐宋诗风演变时,杜甫、韩愈、白居易多被前人拿来作为宋诗风格之肇始,其中尤以韩愈受评点最多。若从虚字使用密度来看,其诗与宋诗高度相似,且均超出各自时代总体使用密度的10%,这似乎也印证了韩诗与宋诗在语言体式上确有承继关系。

主理和议论固然会较多地使用虚字,但宋诗并非全然“以议论为诗”,其虚字密度要显著高于唐诗,这一现象并非仅由不同的诗歌主张所造成。从唐代各阶段直至宋代虚字密度呈现出的连续性攀升态势中,我们便可窥见端倪。这一过程有主“理”的外力推动,亦不能忽视语言因时而变的自发性,尤其是那些反映诗人群体的共同性特征,往往并非诗人个体刻意为之,而是汉语的整体使用习惯悄然发生了变化。此外,尽管宋诗的语言体式已显露出某种“现代性”,如白话与通俗意味加重,但从虚字使用密度发展的整体趋势来看,这种白话转向似乎并非始于宋,而是自唐代近体诗形成后不久便已悄然萌芽了。

2025年第11期

2025年第11期

山东社会科学

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

多民族文字文献智能识别工具 | 人文研究的数字钥匙 · 朝鲜文篇

2026年1月31日 12:10

徐惠 2026-01-31 12:10 江西

中国社科院等研制朝鲜文智能识别工具,赋能人文研究与文化遗产保护。

数字工具与数据正在为人文研究带来一场深刻的“质变”,它不仅仅是效率的提升,更是研究范式、问题边界和知识形态的根本性拓展。

中国社会科学院民族学与人类学研究所民族语言文化行为实验室将陆续介绍研制的系列多民族文字文献智能识别工具,这些专为学术研究设计的工具,正悄然改变着人文学者的工作方式。让跨文字研究变得前所未有的便捷。本期介绍朝鲜文智能识别工具。

朝鲜文又称“训民正音”,是15世纪朝鲜王朝世宗大王主导、集贤殿学者郑麟趾等参与创制的表音文字体系。初始的中世朝鲜文(古朝鲜文)共28个字母(17个辅音、11个元音);发展至现代,规范字母已增至40个(19个辅音、21个元音,含10个单元音、11个双元音)。其构字以音节为单位,是将辅音、元音(和收音)组合成一个方形音节块的方块字。

朝鲜文遗存文献丰富,涵盖中世《训民正音》《龙飞御天歌》等众多典籍,以及现代各领域文本,这些文献是研究朝鲜民族语言文化的核心载体,也是民族历史文化传承的重要依托。

01

研究痛点:朝鲜文文献的数字鸿沟

朝鲜文文献作为东亚历史文化的重要载体,蕴含着丰富的学术价值。从《朝鲜王朝实录》到各类民间文书,这些材料记录了数百年来的政治、社会与文化变迁。

然而,对许多人文学者而言,朝鲜文文献的研究始终存在一道技术门槛。当学者需要引用朝鲜文材料时,传统的手工转写和录入过程既繁琐又易出错,尤其是面对古籍中复杂的文字排版时。即使是掌握了朝鲜语的研究者,在数字化处理过程中也常面临技术障碍——特殊的文字结构、历史拼写变体,以及古籍中常见的朝汉文字混合排版,都增加了数字化的难度。

02

精准识别:学术专研工具

针对朝鲜文文献处理的特殊需求,中国社科院民族学与人类学研究所民族语言文化行为实验室与中央民族大学中国少数民族语言文学院研制的这款识别工具,具备多项专门优化功能。

工具的核心优势在于能够精准识别古籍中朝鲜文与汉字混合排版。无论是纯朝鲜文文本,还是朝汉混排的复杂版面,系统都能准确区分不同文字体系,保持原文的结构与格式。

对于朝鲜语特有的字母组合与拼写规则,工具采用深度学习模型进行训练,能识别不同历史时期的文字变体,包括部分在现代已不常见的拼写方式。

这种专门化设计确保了识别结果不仅字符准确,更符合学术研究对文献原貌保真的高标准要求。

03

操作革新:三步完成文献数字化

这款工具的操作流程设计极简,学者无需特殊技术培训即可上手使用:

把工具安装到本地电脑,然后截图即可把图片变成可编辑的文本。识别结果可直接复制到Word、Excel等常用学术软件中,同时提供标准转写选项,满足不同出版规范要求。为了满足识别横排和竖排文献,我们分别设计了横排和竖排识别功能。

04

工具和后台模型:应用场景

古籍数字化项目:支持批量处理大量朝鲜文古籍,快速建立可检索的数字文献库。

学术写作与引用:研究者在写作过程中如需引用朝鲜文原始文献,只需截图即可获得准确文本,直接插入论文中,保持学术规范性。

教学材料准备:教师可轻松将朝鲜文文献转化为课堂材料,制作双语对照文本,便于学生理解。

05

学术价值:赋能人文研究新可能

朝鲜文识别工具的推出,不仅仅是技术上的进步,更是研究方法的革新。它使人文学者能够:

扩大研究范围:学者不再受限于个人的文字录入能力,可以探索更广泛的朝鲜文文献。

提高研究效率:节省大量手工转写时间,让学者更专注于文本分析与解读。

促进跨学科研究:为语言学、历史学、文献学等不同领域的学者提供共同的数字化工具基础。

保护文化遗产:通过高效数字化,为保存和传播朝鲜文文献遗产提供技术支持。

如今,当学者们面对厚重的朝鲜文古籍时,不再需要逐字抄录。智能识别工具正成为连接古老文献与现代研究的桥梁,让曾经静默的文字在数字世界重新“发声”,开启朝鲜文研究的新篇章。(工具模型研制团队人员:龙从军、姜镕泽、白海波、刘汇丹、金昱延)

如需要软件工具和后台模型API接口,可以联系:

(1)中国社会科学院民族学与人类学研究所   longcj@cass.org.cn

(2)中央民族大学中国少数民族语言文学学院:2016023@muc.edu.cn

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

中国社科报 | 牵住“人文”牛鼻子 解锁语言“数智”密码

2026年1月31日 12:10

徐惠 2026-01-31 12:10 江西

社科院民族语言文化行为实验室以技术解民族语言传承难题,促数智化发展。

来源:社科院专刊总第831期


在我国的广袤土地上,56个民族孕育的百余种语言如同星罗棋布的瑰宝,构筑起独特的语言文化格局。其中约30个民族拥有本民族文字,其余则依托口耳相传延续文脉。但这些珍贵遗产正面临“传承困境”:新疆的回鹘文古籍,因字形斑驳、排版特殊,学者需耗时数月逐字誊录;云南少数民族的口传史诗,仅靠老艺人代代相传,一旦失传便无迹可寻;大量多民族文种混合排版文献,因书写方向、字形结构差异,只能依赖人工翻查,数字化进程举步维艰。这些现实难题让民族语言文化资源长期“藏在深闺人未识”。

  为摆脱这一困境,中国社会科学院民族语言文化行为实验室(以下简称“实验室”)锚定“让民族语言文化资料真正‘用起来’”的核心目标,探索出一条清晰可行的技术实践路径。“先把分散在古籍、碑刻、期刊、词典、田野录音录像等材料中的信息数字化,再把能被检索、核查的结构化内容沉淀为知识,用智能技术提升处理效率,最后把成果以平台和工具的形式服务于学术研究、文化传承和民族地区的实际工作。”实验室主管领导、中国社会科学院民族学与人类学研究所党委书记丁赛告诉记者,这条路径不仅破解了长期存在的技术难题,更推动民族语言文化研究迈入智能化发展的快车道。

破界融合:

  构建人文牵引技术研究新范式

  实验室的探索并非一蹴而就,其前身可追溯至1993年成立的语音学与计算语言学研究室,2015年更名为“民族语言实验研究室”,2023年正式启用现名。近两年来,实验室以“人机共享数据资源体系”为基石,运用人工智能技术突破知识关联瓶颈,依托自然科学仪器开展语言文化和认知行为实验,为民族语言文化保护与铸牢中华民族共同体意识研究提供了系统性支撑,走出了一条区别于传统研究的创新之路。

  在研究范式上,实验室开创性确立“人文问题逆向牵引技术”的核心路径,打破了国内常见的“技术驱动”交叉模式的局限。“我们从不把人工智能当作现成工具简单套用,而是先聚焦真问题。”实验室主任、中国社会科学院民族学与人类学研究所研究员龙从军告诉记者,团队始终围绕民族语言保护、文化遗产数字化、中华民族共同体心理机制等人文核心命题,倒逼技术进行针对性适配与创新性突破。这种“问题导向”的研究机制,让科研工作既紧密对接国家战略需求,又能直接丰富语言学、民族学、心理学等学科的理论体系,实现了技术价值与学术价值的同频共振、双向赋能。 

  在技术体系上,实验室打造了具有高学术门槛的定制化解决方案。团队研究对象自带“特殊性”:多民族语言普遍存在“样本少、写法杂”的困境,唐卡、民族建筑等文化符号缺乏标准化表征,多源异构数据格式繁杂、难以整合。“这些特性让通用技术模型完全‘水土不服’,必须开展技术再创造。”中国社会科学院民族学与人类学研究所副研究员安波坦言,这项工作不仅要求团队成员具备深厚的人工智能、大数据处理等技术积累,更需对研究客体的语言系属、文化内涵、历史背景有精准深刻的理解。“技术+人文”的双重专业要求,让实验室的技术成果具备独特的竞争力。

  在综合交叉能力上,实验室构建了全链条闭环技术体系,实现了系统性突破。“国内学术界虽有语言识别、心理测量等单一方向的交叉研究,但缺乏完整的研究基础设施。”据中国社会科学院民族学与人类学研究所研究员孔敬介绍,团队搭建起从“感知层(文字/语音识别)”到“认知层(心理实验)”再到“知识层(知识图谱)”的完整架构,将文、理、工、医等多学科深度嵌入同一研究框架。这种跨学科整合能力让团队能够对“语言—文化—心理—行为”这一复杂系统开展贯通式、多维互证研究,打破了传统研究的碎片化局限。

硕果盈枝:

  核心成果破解文化传承难题

  基于前期多年的探索积累,实验室通过两年集中建设,形成了多民族文种混排检测与识别体系、基础数据资源库集群、多民族口语语音自动转写技术等一系列标志性成果。这些成果从材料处理、数据支撑、研究方法等多个维度,为民族语言文化传承与学术研究提供了全方位解决方案。

  多民族文种混排检测与识别体系的诞生,彻底攻克了混合文字文献数字化的行业难题。在我国历史文化典籍中,大量多民族语言文字混合排版的文献因字形结构、书写方向和排版规则差异显著,长期面临自动化识别难的技术瓶颈,其数字化处理一直是学术界未能有效解决的重要课题。实验室研发了一套完整的多文种检测与识别系统解决方案:通过构建先进的多文种检测模型,实现了对混合排版文献图像的精准文种定位与分类;基于此,系统可完成对不同文种区块的自动化切分与归类。

  在完成切分和归类后,实验室利用神经网络技术,开展维、回鹘、满、藏、彝、国际音标、西夏文等字符识别工作,不仅自主掌握了多文种识别模型,还研制出系列工具。“其中,‘龙水识字’OCR识别工具已达十余种,7项成果斩获2024年度国际数字人文奖三等奖。”龙从军告诉记者,针对不同文种的特性,部分识别模型打造了多套版本。针对回鹘文文献的特殊性,团队还创新性提出“识别回鹘文拉丁转写再转换为回鹘文字符”的技术路径,成功破解回鹘文古文献与研究文献的数字化难题。

  除了文字处理领域的突破,实验室构建的民族心理认知多模态实验体系,更为铸牢中华民族共同体意识提供了科学研究范式。实验室整合心理学量表、脑电与眼动追踪技术,构建“主观量表—行为表现—生理指标”三位一体框架,让民族心理机制可测可析。“脑电数据印证了特定神经振荡与情绪调节的关联,眼动数据呈现了不同群体社交信息加工的注意分配模式。”中国社会科学院民族学与人类学研究所助理研究员罗薇表示,这些客观证据结合主观幸福感等变量,清晰阐明了积极民族氛围促进社会和谐的作用路径,为做好民族工作提供了坚实的数据支撑。

  实验室在口语处理方面取得关键进展。团队采用音素预训练模型,构建智能转写系统,率先开展国家级、省部级非遗口传数据规模化采集标注,完成7种民族语言及方言的识别模型训练,建立覆盖10个重点非遗项目的语音资源库。“经严格测试,所有模型自动转写错误率稳定控制在15%以下,远超传统手工转写效率,标志着我国民族语言语音计算分析实现里程碑式进展。”中国社会科学院民族学与人类学研究所青年学者兰正群认为,这项技术让非遗口传资料、田野访谈的数字化迈入高效时代,不仅为濒危语言保护提供了可推广范式,更奠定了中华民族多元一体语音资源库的核心基础。

  在学术研究支撑层面,多民族语言亲疏关系计算方法的开创,为语言谱系研究与民族历史考证提供了量化工具。实验室融合编辑距离算法与贝叶斯分类模型,以核心词汇为分析基础,通过计算音韵对应关系与词汇相似度,实现对语言间遗传距离的精准量化。“在彝语方言分析中,数据证实各地方言的高度系统性对应,为驳斥‘彝语方言独立语言’论提供了科学依据;在藏语支与羌语支比较研究中,我们成功验证西藏东南部分语言的羌语支属性,为民族迁徙与文化互动研究提供了关键语言学实证。”中国社会科学院民族学与人类学研究所青年学者陈雅弘举例分析道。

  向新而行:

  锚定数智化服务发展蓝图

  实验室虽已在多民族语言处理、数据资源建设等领域取得多项成果,但仍面临跨学科高层次人才储备不足的短板,制约了研究的深度融合与创新突破;成果评价体系与经费使用的制度性障碍,影响了科研活力的充分释放;国际化合作与标准体系构建尚处于起步阶段,难以充分对接全球前沿资源等亟待突破的发展瓶颈。对此,实验室立足“从实际问题出发、以数据与工具为基础、以服务与应用为落点”的核心思路,擘画了清晰的发展方向。

  推动民族语言从“数字化”向“数智化”升级,是下一阶段核心任务。“过去我们实验室成功解决了‘能不能处理、能不能检索’的基础问题,未来要聚焦‘处理更准、联得更通、用得更方便’。”据安波介绍,针对低资源语言“样本少、写法多、材料杂”的痛点,将扩大训练数据规模与应用场景覆盖,构建可持续的数据生产迭代机制;同时优化语音自动转写技术,让技术真正适配实际需求。

  开展基于人工智能的中华民族认同评估与干预机制研究,是实验室服务国家战略的重要举措。依托已搭建的心理量表、脑电和眼动追踪等多模态实验体系,实验室将在更大样本、更丰富场景中构建稳健路径。“我们计划通过本土化、场景化改造,形成适配不同地区、年龄层与教育背景的评估工具,建立规范的数据采集与隐私保护流程。与此同时,围绕积极情绪调节、跨群体理解等设计活动模块,通过‘方案—实施—评估—优化’的闭环试点,沉淀可推广的工作模式,为铸牢中华民族共同体意识提供数据与方法支撑。”中国社会科学院民族学与人类学研究所青年学者薛璐璐如是说。

  实验室将打通文献库、语料库、知识库、语音库等分散资源,建立统一检索入口,实现“文本—图片—音频—视频—实体概念”的跨模态深度关联。“让研究者从单一线索就能追溯多维信息,如看到一段彝语口传录音,就能同步调取相关古籍文献、文化背景图谱。”中国社会科学院民族学与人类学研究所博士后周子钦满怀期待地说,我们团队还将推动“数据”向“可行动的知识服务”转化——为古籍整理、词典编纂提供定制化工具,为公共文化服务与教育传播打造易用界面,同时完善数据质控与溯源机制,确保信息真实可核查。

  宁夏大学西夏学研究院院长彭向前是实验室数字工具的使用者,他告诉记者,近年来,世界五大藏地的西夏文献陆续公布,为西夏文献数据库建设提供了丰富素材。然而,西夏文录入工作难度极大,学术界普遍采用四角号码输入法,每个西夏字需键入6位数字才能在电脑中显示,直接导致西夏文献数据库建设工作滞后,西夏文献利用率有待提高。中国社会科学院民族语言文化行为实验室研制出十余种“龙水识字”OCR识别工具,其中的龙水西夏文识别软件实现了关键突破:该软件可将图像中的西夏文字与符号自动转换为可自由编辑的文本,替代传统手工录入模式,推动西夏文献数字化工作迈入全文文本化阶段。

  从回鹘文古籍的数字重生,到少数民族口传史诗的高效留存;从语言谱系的量化考证,到民族心理的科学解读,实验室的每一步探索,都在为民族语言文化赋能。夯实研究“基础设施”,推动“看得见的材料”转化为“用得上的知识”,再升级为“可落地的服务”,这不仅是实验室的初心使命,更是守护中华文化根脉、促进各民族交往交流交融的关键路径。未来,随着数智化技术的持续迭代、资源壁垒的不断打破,实验室必将让更多民族语言“活起来”“传下去”,为民族地区现代化发展注入动能,让多元一体的中华文明在数字时代绽放更璀璨的光彩。

责任编辑:王晏清

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

免会务费 | 2026年兰卡斯特大学语料库语言学暑期学校开放注册

2026年1月30日 00:01

徐惠 2026-01-30 00:01 江苏

2026年6月15-19日兰卡斯特大学语料库语言学暑期学校开放注册,免会务费。

转载自“语言治理”

兰卡斯特

大学

语料库语言学暑期学校


Lancaster Summer Schools in Corpus Linguistics are held annually during the summer at Lancaster University. Taking part in the summer schools offers a wonderful opportunity to learn about corpus linguistics and their applications from leading scholars in the field and meet many other participants working on exciting projects and topics.  Lancaster summer schools are a truly international event, each year welcoming participants from over 30 countries in the world. While the participants come to Lancaster to learn about corpus linguistics and their applications in different fields, the summer schools are also a place for developing new academic collaborations and building new friendships. 

课程安排

In 2026, our annual Summer Schools in Corpus Linguistics in Lancaster will take place in person. The programme includes both lectures and practical sessions that introduce the latest developments in the field and practical applications of cutting-edge analytical techniques. The summer schools are taught by leading experts in the field from Lancaster University. The summer schools are open to undergraduate, postgraduate and doctoral students as well as postdoctoral researchers and senior researchers. The summer schools are free to attend. 

In 2026, we will offer the following two summer schools (for further details, click through to each Summer School’s full description):

  • Corpus linguistics for analysis of language, discourse and society

  • Corpus linguistics for language teaching, testing and assessment 

If you are interested in studying corpus linguistics at Lancaster University, you can also consider different ways of joining us such as our MOOC in Corpus Linguistics, and our two distance postgraduate programmes, MA in Corpus Linguistics (a two-year programme) and Postgraduate Certificate in Corpus Linguistics (a one-year programme), both delivered fully online. It is also possible to take postgraduate courses in corpus linguistics for institutional credit. You can also check the various online resources we have put together for those interested in learning more about different methods and applications of corpus linguistics. 



报名注册

Dates: 15-19 June 2026

Venue: Lancaster University, Lancaster, UK

Application: The applications process for the summer schools is now open – to apply, please fill in the online application form. Please note, that while the summer schools are free to attend, there are unfortunately no additional sources of funding available to support the summer school participants, e.g. their travel or accommodation

Organising committee: Dr Dana Gablasova

Contact: corpus-summer-school@lancaster.ac.uk

欢迎点击阅读原文进行注册学习


— END —

【欢迎转发给有需要的人】


您可能还想看

SEE ALSO

★ 推荐阅读 ★

重磅!语言研究全球前2%顶尖科学家“年度影响力”榜单正式发布

申丹教授、聂珍钊教授入选文学研究全球前2%顶尖科学家“年度影响力”榜单

重磅!2023年QS世界大学排名正式发布

重磅!CiteScore™ 2021 语言学期刊影响力排名正式发布

科研助力 | 2022年语言学类期刊SJR排名分区列表(附Excel版下载)

科研助力|2022年QS世界大学语言学、文学专业排名

重磅|2022年QS世界大学排名

科研助力| 2020年文学类(A&HCI)期刊排名

科研助力| 2020年传播学SSCI期刊影响因子排名

知网太贵?请收藏26个全球高质量免费电子数据库

学术调查| Martin Hilpert :什么让语言成为语言

Martin Hilpert :语言学家的一天都忙些什么?

马丁课堂|Martin Hilpert:语言与大脑的关系:从三个语言学实验谈起

马丁课堂|Martin Hilpert:如何阅读语言学学术论文?

大师对话|Steven Pinker与Noam Chomsky谈语言和人工智能在未来的发展大师对话|Krashen 教授与 Chomsky教授谈现代语言学的发展

大师对话|Halliday, Labov, Jacob Mey,  Embleton教授谈功能语用与社会语言学的融合发展

学术访谈|Ken Hyland:如何在高水平期刊发表自己的学术论文

Hello China (中国传统文化短片中英字幕) 100集免费资源

《Amazing China》 中英双语纪录片资源免费获取

86版《西游记》英文配音版资源免费获取

用英语讲好中国故事之刘欣全英文回怼西方记者(附视频+双语文稿)

用英语讲好中国故事之《四季中国》免费获取

图片


比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

CFP | 全球词网国际会议GWLN2026征稿

2026年1月29日 00:00

徐惠 2026-01-29 00:00 江苏

2026年9月GWLN-8维也纳举办,聚焦AI与词汇创新、词典学,征稿出版。

We are delighted to announce that the eighth iteration of Globalex Workshop on Lexicography and Neology (GWLN-8) will be held in conjunction with the XXII EURALEX International Congress, with financial support from the COST Action ENEOLI (European Network on Lexical Innovation, CA22126).


Introduction to the Meeting

Over the years, the GWLN series has evolved into the leading international forum for lexicographers, scholars, tool developers, and other practitioners interested in how new words and meanings emerge and how they are detected, evaluated, and described in lexicographic resources.

The central theme of GWLN-8 will be the intersection of lexical innovation and lexicography in the age of artificial intelligence (AI). While AI-based technologies create new opportunities for supporting the lexicographic workflow, recent developments in language models and Generative AI have also profoundly transformed the ecology of neologisms themselves. GWLN-8 will explore current experiences and perspectives on theoretical, methodological, and practical challenges converging lexicography, neology, and AI.


PART1

Submission requirements

Abstracts of approximately 500 words should highlight the connection between neology and lexicography, preferably in relation to AI, and will be peer-reviewed by two members of the Scientific Committee. 

PART2

Meeting arrangement

GWLN-8 will be held at the Austrian Academy of Sciences in Vienna, on September 29, from 9:00 to 13:00 CEST, and posters will be presented at the EURALEX poster session on September 30. Selected GWLN-8 papers will be published as a special issue of International Journal of Lexicography in 2027.

(ENEOLI members presenting at GWLN-8 will be eligible for financial reimbursement.)

PART3

Important dates

  • March 2, 2026 : Abstract submission

  • April 2, 2026 : Abstract acceptance notification

  • April 17, 2026 : Deadline for confirmation by authors of their workshop attendance

  • July 10, 2026 : Early Bird registration deadline for EURALEX 

  • July 24, 2026 : Submission of camera-ready copy of abstracts

  • September 1, 2026 : End of registration for EURALEX

  • September 29, 2026 : GWLN-8 at the Austrian Academy of Sciences, Vienna

preliminary timetable for full papers

  • November 15, 2026 : Full paper submission to IJL 

  • January 15, 2027 : Full paper acceptance notification

  • February 15, 2027 : Submission of revised full papers

PART4

Information

PART5

Chairs

  • Ilan Kernerman, Lexicala by K Dictionaries

  • Kris Heylen, Dutch Language Institute


= END =

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

【访学申请】香港中文大学中国文化研究所访问学人计划2027

2026年1月29日 00:00

徐惠 2026-01-29 00:00 江苏

2027香港中文大学中国文化研究所访学计划,4月30日申请截止,含补贴等详情。

转载自“香港人文情报小侦探”

香港中文大學中國文化研究所

訪問學人計劃

香港中文大學中國文化研究所訪問學人計劃 2027 贊助從事中國研究的學者到香港中文大學作為期三個月至四個月的訪問,並積極參與中大的學術活動,申請資格及詳情可參閱海報。

查詢:ics-programmes@cuhk.edu.hk

申請鏈接:

https://cloud.itsc.cuhk.edu.hk/webform/view.php?id=13724711

更多申請信息:

https://www.ics.cuhk.edu.hk/zh/ics-events/eventdetail/300



比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

免费会议 | 多模态生成式人工智能时代语料库语言教学工作坊

2026年1月28日 17:02

徐惠 2026-01-28 17:02 江西

2026年香港教育大学线上语料库语言教学工作坊,免费,3月1日前报名。

转载自“应用语言学研习与区域国别学”

CBLP Meets with Multimodal Generative AI

图片


我们诚挚地邀请您参加由香港教育大学(EdUHK)语言学与现代语言研究系(LML)主办的题为“Corpus-Based Language Pedagogy Meets Multimodal Generative AI”的线上师训系列工作坊。本系列工作坊旨在探讨如何将人工智能工具融入语言教学,并促进多模态生成式AI与语料库驱动的语言学习及教学相结合。通过参与活动,您将获得相关实用知识与方法,并有机会加入专属交流平台,与同行共同学习、分享经验。更多具体安排与内容,敬请查阅随附的宣传海报。期待您的参与! 点此链接即可报名:http://tiny.cc/g6zx001

图片


Workshop Schedule

图片

图片

注册学习

图片

欢迎扫码注册学习


图片

《语义学》(上下卷)

 《信息结构与句子形式》

书讯 | 韦努蒂著《反对工具主义:论翻译》中译本

书讯 | 韦努蒂著《翻译改变一切:理论与实践》中译本

《英语音系》乔姆斯基

语篇研究:跨越小句的意义

《语言教学的流派(第3版)》

书讯 | 《韵律音系学》


比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

《中文信息学报》新刊概览∣ 2025年第11期(39卷第11期)

2026年1月27日 17:00

JCIP 2026-01-27 17:00 江西

《中文信息学报》2025年11期聚焦多方向中文信息处理,含多篇相关研究成果。

转载自“中文信息学报”

图片

图片

 ↑点开查看清晰大图 

语言分析与计算模型

✦ 基于字级依存句法分析的汉语句子语义组合计算方法

作    者: 梁宇腾,汪凯,张玉洁,满志博,徐金安,陈钰枫

摘    要: 句子的语义表示学习是自然语言处理的基础核心技术,根据语义组合理论,句子的语义将由其组合成分的语义按照一定的组合方式计算得到。在汉语上,这方面的工作提出以汉字或词语作为组合成分并以句法结构作为组合方式的多种模型,在复述识别等应用中取得了较好的效果,受到研究者的关注。该文围绕组合成分的语义表示学习和语义组合方式的建模进行探索,提出基于字级依存句法分析的汉语语义组合计算模型:(1)为了强化汉字的语义表示学习,引入N-gram获取可能构成的词语作为上下文特征,并采用多头注意力机制获取全句的上下文表示; (2)采用图框架依存句法分析获取汉字依存关系特征,并在此基础上构建语义组合计算模型; (3)联合复述识别任务进行汉语句子的语义组合表示学习。作者在 LCQMC 数据集上的实验结果表明,该文方法在 F1 和准确率上分别达到 87.10% 和 86.01%,较现有最优方法提升 1.02% 和 1.20%。此外,在以预训练语言模型 BERT 作为基线的情况下,引入该文提出的方法后,复述识别任务中的 F1 和准确率分别提升 1.65% 和 2.12%,表明该方法同样适用于预训练模型。

关键词 : 字级依存句法分析, 语义组合, 复述识别

引用格式 : 梁宇腾,汪凯,张玉洁,满志博,徐金安,陈钰枫. 基于字级依存句法分析的汉语句子语义组合计算方法[J]. 中文信息学报. 2025, 39 (11): 1-14.

LIANG Yuteng, WANG Kai, ZHANG Yujie, MAN Zhibo, XU Jin’an, CHEN Yufeng. Sentence Semantic Composition Computing Method Based on Chinese Character Dependency Parsing[J]. Journal of Chinese Information Processing. 2025, 39 (11): 1-14.

全文链接: 点击下载

✦ 融合文本困惑度特征和相似度特征的推特机器人检测方法

作    者: 王钟杰,张朝文,刘秉权,丁文琪,付雨濛,单丽莉

摘    要: 推特机器人检测任务的目标是判断一个推特账号是真人账号还是自动化机器人账号。随着自动化账号拟人算法的快速迭代,检测最新类别的自动化账号变得越来越困难。最近,预训练语言模型在自然语言生成任务和其他任务上表现出了出色的水平,当这些预训练语言模型被用于推特文本自动生成时,会为推特机器人检测任务带来很大挑战。该文研究发现,困惑度偏低和相似度偏高的现象始终出现在不同时代自动化账号的历史推文中,且该现象不受具体预训练语言模型类型的影响。针对这些发现,该文提出了一种抽取历史推文困惑度特征和相似度特征的方法,并设计了一种特征融合策略,以更好地将这些新特征应用于现有推特机器人检测模型。

关键词 : 推特机器人检测, 预训练语言模型, 文本困惑度分析, 文本相似度分析

引用格式 : 王钟杰,张朝文,刘秉权,丁文琪,付雨濛,单丽莉. 融合文本困惑度特征和相似度特征的推特机器人检测方法[J]. 中文信息学报. 2025, 39 (11): 15-23.

WANG Zhongjie, ZHANG Zhaowen, LIU Bingquan, DING Wenqi, FU yumeng, SHAN Lili. Twitter Robot Detection Based on Text Perplexity and Text Similarity[J]. Journal of Chinese Information Processing. 2025, 39 (11): 15-23.

全文链接: 点击下载

✦ 基于多属性可控生成的文本去毒害方法

作    者: 丁汉星,庞亮,魏子豪,沈华伟,程学旗

摘    要: 基于大规模文本语料库的预训练语言模型在文本生成时存在生成毒害文本的潜在风险,即输出的文本可能包含不适当的内容,从而给实际应用带来安全风险。传统的去毒害方法往往将毒害视作一个整体进行处理,未能有效解耦并区分不同类型的毒害成分,这导致了对毒害信息缺乏针对性的精细化控制,从而使得去毒害效果相对有限。针对传统方法的不足,该文提出了一种多属性可控的文本去毒害方法。该方法利用变分自编码器学习多类毒害信息的联合隐空间分布,并结合联合隐空间的能量模型和独立的毒害判别器,实现了对各类毒害信息的精细控制并显著消除。实验结果显示,该方法在降低多类毒害信息的生成水平方面明显优于现有方法,同时保证了文本的流畅性和多样性。

关键词 : 预训练语言模型, 文本去毒害, 多属性可控生成

引用格式 : 丁汉星,庞亮,魏子豪,沈华伟,程学旗. 基于多属性可控生成的文本去毒害方法[J]. 中文信息学报. 2025, 39 (11): 24-33,49.

DING Hanxing, PANG Liang, WEI Zihao, SHEN Huawei, CHENG Xueqi. Multi-aspect Controllable Text Generation for Text Detoxification[J]. Journal of Chinese Information Processing. 2025, 39 (11): 24-33,49.

全文链接: 点击下载

语言资源建设与应用

✦ 构建面向审计领域的大规模知识库及大模型评测指令数据集

作    者: 黄佳佳,徐超,李鹏伟,詹天明,郑纬民

摘    要: 随着审计数智化程度的提高,构建面向审计领域的大规模知识库成为一项迫切需求。该文介绍一种领域知识库构建框架,并基于该知识库构建了大模型评测数据集。首先,分析审计知识需求并设计知识表示框架,收集领域文本并利用信息抽取技术获取结构化知识。其次,提出一种基于领域专家指导的半自动化本体构建方法快速构建审计领域本体,通过神经网络抽取出大量领域命名实体并从海量审计文本中自动抽取审计知识三元组。最后,基于审计知识库,设计指令数据集并评测当前主流大模型在审计任务上的表现。实验结果表明,该文提出的方法在构建面向审计领域的知识库方面取得了显著效果。在指令数据集上的评测结果表明,各类大模型在大部分任务上的回答结果不尽如人意,尚未达到工程应用水准。

关键词 : 审计知识库, 命名实体识别, 大语言模型, 评测语料

引用格式 : 黄佳佳,徐超,李鹏伟,詹天明,郑纬民. 构建面向审计领域的大规模知识库及大模型评测指令数据集[J]. 中文信息学报. 2025, 39 (11): 34-49.

HUANG Jiajia, XU Chao, LI Pengwei, ZHAN Tianming, ZHENG Weimin. A Large-scale Audit Knowledge Base and a Benchmark Dataset for Large Language Model Evaluation[J]. Journal of Chinese Information Processing. 2025, 39 (11): 34-49.

全文链接: 点击下载

✦ 动词驱动事件的共指关系中文语料库构建及大模型评测

作    者: 王皓泽,辛欣

摘    要: 事件共指关系研究是自然语言处理领域的一项基础任务。现有工作主要在封闭域上对事件共指进行研究。为了在开放域上研究事件共指关系,该文提出直接从事件的表达载体出发定义事件共指的研究思路,并具体讨论了动词驱动的事件之间的共指关系。该文构建了动词驱动事件共指关系的数据规范,并将共指关系细分为强共指与弱共指。基于数据规范,人工标注构建了38万余字的中文语料库,含1 000篇文档,29 250个动词,1 858条强共指链,994个弱共指动词对。并进行了流水线共指消解实验:提及检测阶段,采用成分句法分析算法提取动词成分,F1值为96.9%;共指关系预测阶段,分别采用提示工程、指令微调、知识蒸馏评测了大语言模型在该任务上的表现,比较模型预测的平均F1值,其中,提示工程方法为50.0%,指令微调方法为64.4%,知识蒸馏方法为71.7%。将经指令微调的大模型与经有监督微调的小模型进行对比,小模型的推理表现略低于大模型,推理效率远高于大模型。

关键词 : 事件共指关系, 中文语料库, 大语言模型

引用格式 : 王皓泽,辛欣. 动词驱动事件的共指关系中文语料库构建及大模型评测[J]. 中文信息学报. 2025, 39 (11): 50-65.

WANG Haoze, XIN Xin. Chinese Coreference Corpus from Verb-Driven Events and Its Application for LLM Evaluation[J]. Journal of Chinese Information Processing. 2025, 39 (11): 50-65.

全文链接: 点击下载

知识表示与知识获取

✦ 基于超边注意力的双边约束超网络表示学习

作    者: 王威,朱宇,王晓英,黄建强,曹腾飞,陈毅艰

摘    要: 现有的大多数超网络表示学习方法无法有效地捕获超边信息。因此,该文针对上述问题提出一个基于超边注意力的双边约束超网络表示学习方法,该方法首先通过知识表示学习中的平移机制,提出一种超边注意力感知的超路径随机游走算法,以便于在随机游走中保留超网络的高阶元组关系,即超边信息。然后,利用结构派生神经网络模型和高阶元组关系感知模型捕获超网络的节点之间的成对关系和高阶元组关系来分别获得节点表示向量,并对节点表示向量进行线性加权融合。在三个真实世界的超网络数据集上的实验表明,对于链接预测任务,该方法在GPS和drug数据集上较最优基线方法Hyper-SAGNN分别提高了0.58和0.42个百分点;在MovieLens数据集上非常接近于最优基线方法HPSG。对于超网络重建任务,该方法在GPS数据集上均优于基线方法;在Drug数据集上,当重建比例大于30%时,该方法优于基线方法。

关键词 : 超网络表示学习, 高阶元组关系, 超边注意力, 链接预测, 超网络重建

引用格式 : 王威,朱宇,王晓英,黄建强,曹腾飞,陈毅艰. 基于超边注意力的双边约束超网络表示学习[J]. 中文信息学报. 2025, 39 (11): 66-77.

WANG Wei, ZHU Yu , WANG Xiaoying, HUANG Jianqiang, CAO Tengfei, CHEN Yijian. Bilateral Constrained Hypernetwork Representation Learning with Hyperedge Attention[J]. Journal of Chinese Information Processing. 2025, 39 (11): 66-77.

全文链接: 点击下载

✦ 联合结构和边信息嵌入的实体对齐

作    者: 张胜利,段友祥,孙歧峰

摘    要: 实体对齐旨在匹配不同知识图谱中相同对象对应的实体,是知识图谱构建与融合过程中的一项关键任务。传统方法依赖于外部信息和人工定义的规则,适配性较差。基于表示学习的方法之前主要关注结构信息,而对实体边信息利用不够充分。针对以上问题,该文提出了一种联合知识图谱多方面信息嵌入的实体对齐方法。引入预训练模型LaBSE生成值嵌入向量,利用图注意力网络突出重要的属性信息;从语义和字符串两个角度探索得到实体名称特征;利用实体的单跳和多跳邻域信息学习知识图谱的结构嵌入;最后采用加权连结策略对各通道对齐结果进行融合。在公开数据集上的实验结果表明,该方法可以使结构信息和边信息在对齐过程中相互补充和增强,相较于其他方法改进显著。

关键词 : 实体对齐, 知识图谱, 表示学习

引用格式 : 张胜利,段友祥,孙歧峰. 联合结构和边信息嵌入的实体对齐[J]. 中文信息学报. 2025, 39 (11): 78-85.

ZHANG Shengli, DUAN Youxiang, SUN Qifeng. Joint Structure and Side Information Embedding for Entity Alignment[J]. Journal of Chinese Information Processing. 2025, 39 (11): 78-85.

全文链接: 点击下载

✦ 基于知识蒸馏的无监督句向量表征对比学习

作    者: 丁妍,金日泽

摘    要: 近年来研究者们广泛使用对比学习技术进行无监督句向量学习,但仍存在正负样本划分不合理、数据增强易导致文本语义严重改变等问题。该文在无监督句向量模型SimCSE基础上进一步优化了文本正负样例的构建: 在构建正样例时,为了避免学习饱和现象,将输入句子标记(token)进行随机重复操作,以确保正样例的多样性;同时,通过计算语料间的语义相似性分数,选择更有意义的负样例,从而进一步优化模型的性能。此外,该文采用了知识蒸馏方法,利用BERT模型的注意力头(attention heads)机制更好地捕捉句子之间的语义关系,同时保持了无监督训练的优点。在STS(语义文本相似度)数据集上的实验结果表明,该文的方法在无监督环境下基于BERT-base的模型达到了81.03%的Spearman相关性,优于现有的STS基准测试分数。同时,该方法学习到的句向量表征分布更均匀,进一步验证了该文所提方法的有效性。

关键词 : 对比学习, 无监督句向量, 知识蒸馏, 语义相似度

引用格式 : 丁妍,金日泽. 基于知识蒸馏的无监督句向量表征对比学习[J]. 中文信息学报. 2025, 39 (11): 86-94.

DING Yan, JIN Rize. Contrastive Learning of Unsupervised Sentence Representation with Knowledge Distillation[J]. Journal of Chinese Information Processing. 2025, 39 (11): 86-94.

全文链接: 点击下载

机器翻译

✦ 多粒度关键词注意力修正机制的篇章机器翻译方法

作    者: 林超,张为泰,王士进,刘俊华,刘聪

摘    要: 篇章级机器翻译因可充分考量上下文信息,故而能有效提升译文质量与连贯性。然而,输入序列长度的大幅扩增,对翻译模型在长序列里捕获关键信息的能力提出了更为严苛的要求。针对上述问题,该文提出了一种多粒度关键词注意力修正机制的篇章机器翻译方法。具体地,首先引入掩码注意力扰动模块,评估篇章序列中不同词的重要性,并对关键词的权重进行激励,对噪声词权重进行抑制;其次,结合上下文知识迁移学习方法,将模型在子句和句子粒度层面的上下文建模能力迁移至篇章级翻译模型,从而提升篇章机器翻译模型的鲁棒性和翻译效果。与基线篇章翻译模型相比,在开源的WMT篇章翻译任务数据集上,该文方法平均提升0.55个BLEU,用词一致性提升4.1%,表明该方法在上下文信息利用上具有显著的有效性。

关键词 : 注意力修正机制, 篇章级机器翻译, 迁移学习

引用格式 : 林超,张为泰,王士进,刘俊华,刘聪. 多粒度关键词注意力修正机制的篇章机器翻译方法[J]. 中文信息学报. 2025, 39 (11): 95-103.

LIN Chao, ZHANG Weitai, WANG Shijin, LIU Junhua, LIU Cong. Document-level Machine Translation with Multi-ghranularity Keyword Attention Correction Mechanism[J]. Journal of Chinese Information Processing. 2025, 39 (11): 95-103.

全文链接: 点击下载

民族及周边语言信息处理

✦ 融合回译与多种改进的汉老神经机器翻译方法

作    者: 雷歆,周兰江,毛存礼

摘    要: 神经机器翻译现已成为翻译技术主流,在诸多大语种上已取得了极佳的进展,但对于老挝语这种低资源语言的机器翻译技术尚存在欠缺。该文使用弱监督的方法将汉老双语映射在同一向量空间中,减小了因跨语言而带来的嵌入差异,接着使用反向翻译策略缓解了老挝语低资源语言问题,运用汉老平行句对筛选策略得到了扩充的高质量平行句对。在此基础上,对Transformer模型进行改进,实现了编码器-解码器层间的信息增强,使模型翻译性能得到提升,同时引入平均注意力机制,使模型解码速度得到提升。实验表明,该文模型在老汉和汉老翻译任务中BLEU值较基线系统提升了1.36和1.22。

关键词 : 汉语-老挝语, 神经机器翻译, 回译, 信息传输增强, 解码加速

引用格式 : 雷歆,周兰江,毛存礼. 融合回译与多种改进的汉老神经机器翻译方法[J]. 中文信息学报. 2025, 39 (11): 104-111.

LEI Xin, ZHOU Lanjiang, MAO Cunli. Chinese-Lao Neural Machine Translation Method based on Back Translation and Various Improvements[J]. Journal of Chinese Information Processing. 2025, 39 (11): 104-111.

全文链接: 点击下载

信息抽取与文本挖掘

✦ SPTEE:一种用于解决事件抽取任务的生成模型

作    者: 王江晴,白鑫,尹帆,帖军,雷炜豪

摘    要: 事件抽取是自然语言处理中一项重要的子任务。目前在缺乏足够标注语料的低资源场景下如何有效地进行事件抽取任务,仍然是一项具有挑战的任务。Prompt-Tuning范式通过引入文本提示并重新制定下游任务,在低资源场景下取得了不错的效果。受Prompt-Tuning启发,该文为低资源下事件抽取任务提出一种基于软模板(Soft-Prompt-Template)的生成模型SPTEE。SPTEE通过引入可训练的软模板和带有标签语义的标签语义空间,促使模型直接生成触发词、论元及其标签序列。实验结果表明,SPTEE模型在低资源和标准资源场景下都具有良好的表现。

关键词 : 事件抽取, Prompt-Tuning, 低资源

引用格式 : 王江晴,白鑫,尹帆,帖军,雷炜豪. SPTEE:一种用于解决事件抽取任务的生成模型[J]. 中文信息学报. 2025, 39 (11): 112-119.

WANG Jiangqing, BAI Xin, YIN Fan, TIE Jun, LEI Weihao. SPTEE: A Generation Model for Event Extraction[J]. Journal of Chinese Information Processing. 2025, 39 (11): 112-119.

全文链接: 点击下载

✦ 基于对角注意力池化的零样本关系抽取模型

作    者: 胡婕,毕宗旺,高珊

摘    要: 目前主流的零样本关系抽取模型多从设计匹配模式的角度出发,旨在达到性能与推理速度的平衡。它们未考虑匹配中句子表示存在的各向异性问题,限制了模型对底层语义特征的获取,该文引入对角注意力池化来缓解此问题。此外,为了解决预训练语言模型中高低频词不平衡对句子向量造成距离偏差而产生的模型对句子语义理解模糊的问题,该文使用语义向量归一化来平衡高低频词的权重。最后,在预训练语言模型的隐藏状态中引入噪声扰动来缓解预训练过程中存在的过拟合和表示崩溃问题。在两个公开数据集Wiki-ZSL和FewRel上的实验结果表明,所提模型相较于SOTA模型的综合性能以及推理速度都具有明显的优势。

关键词 : 零样本关系抽取, 对角注意力池化, 语义向量归一化, 隐藏状态噪声扰动

引用格式 : 胡婕,毕宗旺,高珊. 基于对角注意力池化的零样本关系抽取模型[J]. 中文信息学报. 2025, 39 (11): 120-129.

HU Jie, BI Zongwang, GAO Shan. Zero-shot Relation Extraction Model based on Diagonal Attention Pooling[J]. Journal of Chinese Information Processing. 2025, 39 (11): 120-129.

全文链接: 点击下载

问答与对话

✦ 基于预训练模型的个性化对话生成

作    者: 徐晖,王中卿

摘    要: 在对话系统中引入用户画像对于生成个性化的对话至关重要。然而,在大多数个性化对话语料库中,用户画像结构是不完整的。尽管神经网络在个性化对话模型方面取得了一些进展,但是它们在学习说话者的个性以及说话者之间互动方面表现出的能力非常有限。为此,该文提出了基于预训练模型的将用户画像信息融入模型中帮助生成个性化对话的方法。具体来说,该文引入了个性化关系树结构,将人物个性以及人物关系以树结构方式进行表示,在预训练阶段,模型通过预测个性化关系树来学习说话者的个性以及人物间的关系,并将学习到的知识迁移到对话生成阶段。实验结果表明,该文所提出的模型在BLEU和PPL等评价指标上提升明显,可以有效地提升对话之间的个性化表现,研究结果还表明了个性化关系树结构对个性化对话模型的重要性。

关键词 : 对话生成, 个性化, 用户画像, 预训练

引用格式 : 徐晖,王中卿. 基于预训练模型的个性化对话生成[J]. 中文信息学报. 2025, 39 (11): 130-137.

XU Hui, WANG Zhongqing. Personalized Dialog Generation Based on Pre-trained Model[J]. Journal of Chinese Information Processing. 2025, 39 (11): 130-137.

全文链接: 点击下载

✦ 基于用户预期情绪感知策略选择的情感支持对话系统

作    者: 陈妍,杨燕,孙宇翔,庄鹏杰,陈成才,贺樑

摘    要: 情感支持对话任务旨在通过对话的方法帮助用户进行情绪疏导,克服其所面临的问题。现有工作仅基于对话历史选择支持策略,用户情绪反馈对策略选择的影响未得到充分利用。因此,该文提出一种基于用户预期情绪感知策略选择的情感支持对话模型(Lookahead Emotion-aware Strategy Selection Model for Emotional Support Conversation,EmoESC),通过模拟用户对不同支持策略产生的反应得到预期情绪,利用强化学习的方法将策略使用前后用户的情绪变化作为奖励,选择使用户预期情绪更佳的支持策略。同时,为了增加回复与用户问题之间的相关性,利用用户问题描述增强回复生成,从而有效缓解用户负面情绪并提供帮助。在ESConv公开数据集上进行的实验表明,EmoESC模型在5项自动评估指标和3项人工评估指标上取得了比其他基准模型更好的效果。

关键词 : 情感支持对话, 策略选择, 强化学习

引用格式 : 陈妍,杨燕,孙宇翔,庄鹏杰,陈成才,贺樑. 基于用户预期情绪感知策略选择的情感支持对话系统[J]. 中文信息学报. 2025, 39 (11): 138-147.

CHEN Yan, YANG Yan, SUN Yuxiang, ZHUANG Pengjie, CHEN Chengcai, HE Liang. Lookahead Emotion-aware Strategy Selection Model for Emotional Support Conversation[J]. Journal of Chinese Information Processing. 2025, 39 (11): 138-147.

全文链接: 点击下载

情感分析与社会计算

✦ 基于结构信息引导LSTM和融合门控机制的方面级情感分析

作    者: 吴文,李卫疆

摘    要: 现有的方面级情感分析研究大部分只关注依存句法关系,忽略了语义依赖关系,导致它们在句法不规范的评论文本数据上表现不佳,并且此类方法没有充分利用线性表示的上下文信息和图编码表示的结构信息。针对上述问题,该文提出了一种基于结构信息引导LSTM和融合门控机制的方面级情感分析模型。该模型同时考虑了句法结构信息和语义结构信息,并通过结构信息引导LSTM在每个时间步指导模型学习结构信息。这种机制能够更好地集成上下文信息和结构化信息,然后通过融合门控机制评估增强表示的结构信息对方面词情感极性的贡献,得到深度融合后的特征进行分类。模型在Twitter、Restaurant和Laptop数据集上的实验结果与基准模型相比均有明显提升。

关键词 : 方面级情感分类, 结构信息引导单元, 门控机制

引用格式 : 吴文,李卫疆. 基于结构信息引导LSTM和融合门控机制的方面级情感分析[J]. 中文信息学报. 2025, 39 (11): 148-159.

WU Wen, LI Weijiang. Aspect-level Sentiment Analysis Based on Structural Information-Guided LSTM and Gate Mechanism[J]. Journal of Chinese Information Processing. 2025, 39 (11): 148-159.

全文链接: 点击下载

✦ 常识图增强双编码器的方面级情感三元组提取

作    者: 姜珊,诺明花,王浩

摘    要: 方面级情感三元组提取(ASTE)是基于方面级别的情感分析(ABSA)中一个复杂而重要的任务,其旨在从评论句中抽取情感三元组。近年来,先进方法主要集中在挖掘深层语义和语法信息,但这些特征仍然不足以准确地提取情感三元组,静态特征也无法对动态语义信息进行建模。该文提出了一种将常识知识与双编码器相结合的模型,引入了动态掩码和动态加权模块,增强了对动态语义信息的捕获能力。同时,构建常识图,将常识知识与语义和句法信息融合,使模型充分掌握领域知识。该模型利用句法依赖树和图卷积神经网络提取结构信息。实验结果表明,该文所提方法在四个基准数据集14lap,14res,15res,16res上的F1值分别提升了2.48%,2.16%,1.93%和2.72%。

关键词 : 情感分析, 常识图, 动态掩码, 动态加权

引用格式 : 姜珊,诺明花,王浩. 常识图增强双编码器的方面级情感三元组提取[J]. 中文信息学报. 2025, 39 (11): 160-171.

JIANG Shan, NUO Minghua, WANG Hao. Enhanced Dual Encoder with Commonsense Graph for ASTE[J]. Journal of Chinese Information Processing. 2025, 39 (11): 160-171.

全文链接: 点击下载

✦ 基于多任务多模态交互学习的情感分析网络

作    者: 薛鹏,李旸,王素格,廖健,郑建兴,符玉杰,李德玉

摘    要: 由于现有方法在融合不同模态的高级与低级特征时,忽视了不同模态特征层次之间的差异。因此,该文提出了多任务多模态交互学习的自监督动态融合模型,通过多层网络结构,构建了单模态特征表示与两两模态特征的层次融合表示,并设计了从低级特征渐变到高级特征的融合策略。为了进一步加强多模态特征融合,使用了分布相似性损失函数和异质损失函数,用于学习模态的共性表征和特性表征。在此基础上,利用多任务学习,获得模态的一致性及差异性特征。在CMU-MOSI和CMU-MOSEI数据集上的实验,结果表明该文模型的情感分类性能优于基线模型。

关键词 : 多模态融合, 多任务学习, 情感分析

引用格式 : 薛鹏,李旸,王素格,廖健,郑建兴,符玉杰,李德玉. 基于多任务多模态交互学习的情感分析网络[J]. 中文信息学报. 2025, 39 (11): 172-182.

XUE Peng, LI Yang, WANG Suge, LIAO Jian, ZHENG Jianxing, FU Yujie, LI Deyu. Sentiment Classification Method Based on Multi-tasking and Multimodal Interactive Learning[J]. Journal of Chinese Information Processing. 2025, 39 (11): 172-182.

全文链接: 点击下载

✦ 一种基于预训练标签序列生成模型的多标签情绪分类方法

作    者: 揭安全,陈雷,曾雪强,左家莉

摘    要: 基于序列到序列的情绪标签生成模型采用循环神经网络建模情绪相关性,是一种有效的多标签情绪分类方法。然而,现有序列生成模型仅通过隐状态隐式地学习标签相关性,难以有效捕捉细粒度情绪间的强相关性。针对这一问题,该文提出了一种基于预训练序列生成模型的多标签情绪分类方法(Multi-Label Emotion Classification Based on Pre-trained BART, EmoBART)。EmoBART模型采用预训练生成式语言模型BART为情绪标签序列生成的网络骨架,使用相关性网络(CorNet)显式地学习情绪相关性。EmoBART模型由编码模块、解码模块和相关性网络模块组成。编码模块提取文本语义信息、解码模块采用生成式标签链构建情绪标签序列、相关性网络模块显式建模情绪相关性,并对情绪标签进行预测。在细粒度情绪数据集上的对比实验结果表明,EmoBART模型具有比已有模型更优的情绪识别性能。

关键词 : 多标签情绪分类, 序列生成模型, 序列到序列, 情绪相关性学习

引用格式 : 揭安全,陈雷,曾雪强,左家莉. 一种基于预训练标签序列生成模型的多标签情绪分类方法[J]. 中文信息学报. 2025, 39 (11): 183-194.

JIE Anquan, Chen Lei, ZENG Xueqiang, ZUO Jiali. A Multi-label Emotion Classification Method Based on Pre-trained Label Sequence Generation Model[J]. Journal of Chinese Information Processing. 2025, 39 (11): 183-194.

全文链接: 点击下载


 图片

↑点开查看清晰大图  



今日责编:双玉酝

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

计算语言学专委会发布2025年度自然语言处理亮点进展

2026年1月26日 17:02

徐惠 2026-01-26 17:02 江西

2026年1月8日,CIPS计算语言学专委会发布2025年NLP五大亮点进展,含中国开源大模型领跑等领域突破。

转载自“CIPS计算语言学专委会”

2025年度自然语言处理

亮点进展

中国中文信息学会计算语言学专业委员会在面向全体委员公开征集的基础上,组织独立评审委员会进行严格评议,现正式发布自然语言处理领域2025年度五大亮点进展。

中国开源大模型推动全球AI普惠发展

中国开源大模型以技术突破、生态完善与全球认可,实现了从“并跑”到“领跑”的关键跨越。中国开源模型在Hugging Face的下载量首超美国,全球使用率达近30%。中国大模型主打低成本、轻量化路线,兼具高效推理与多模态融合特性,大幅降低全球 AI 技术使用门槛,提供了高性价比的技术选择。以开源共享为核心的生态模式,正推动全球 AI 技术朝着普惠、多元的方向发展,惠及更多国家与群体。

大模型在数理推理与编程领域实现突破

在 2025 年国际数学奥林匹克竞赛(IMO) 中,配备“深度思考”能力的 Google Gemini 与 OpenAI GPT 以出色表现夺得金牌,标志着大语言模型在复杂数理推理领域取得了具有里程碑意义的突破。“深度思考”机制通过对推理链路进行显式结构化建模,结合动态评估与自我反思,实现对推理过程的动态修正与迭代优化,助力大模型推理能力实现关键跃升。ICPC 2025 编程比赛中,OpenAI 推理系统凭借思维链与双模型协同任务规划获满分,Gemini 也依托多智能体并行生成 - 验证闭环以及代码检索增强技术达到金牌水平。大模型通过分步推理复刻人类解题逻辑,结合自主优化机制提出独特方案,标志其正从单纯信息处理工具,转变为协助解决复杂问题的关键力量。

可验证的奖励强化学习提升大模型推理能力

基于可验证奖励的强化学习(RLVR)是推动大模型深度推理能力发展的关键技术范式。它通过结果验证、单元测试等自动化方式,为模型的推理过程提供高效的结果监督信号,引导模型自主拓展思维链,进而构建起系统化的深度推理模式。这一方法显著提升了大模型在数理科学、代码生成等可验证任务上的性能。

深度研究系统推动信息获取范式向高阶知识精炼跨越

深度研究(Deep Research)系统通过融合大语言模型与结构化分析执行流程,实现了研究范式的关键演进——从“简单内容生成”迈向“高阶知识精炼”。该系统能够自动构建“分析-执行-整合”的闭环研究流程:在分析信息需求后,可按需调用多种工具进行动态检索与数据处理,最终生成附有证据支撑的深度分析报告。该技术范式在复杂问题分析、交叉学科研究等领域展现出显著优势,推动研究效率与系统性提升。

“视觉-语言-动作”技术加速具身智能标准化进程

OpenVLA 作为开源视觉-语言-动作(VLA) 标杆,凭借强泛化性、完善生态与低使用门槛,成为学术研究与工业落地的首选基线,显著推动领域标准化。π 系列VLA模型以流匹配架构与人类视频直接迁移技术破局,在精细操作与开放世界泛化上表现突出,开辟了新技术路径。两者分别引领通用基线与创新架构方向,共同加速具身智能开源生态发展。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Nature: 8000年前陶罐上的花卉图案展现了“数学知识”

2026年1月26日 17:02

李斌 2026-01-26 17:02 江西

考古学家发现8000年前哈拉夫陶器花卉图案含二的幂次方数学知识。

按:此文很厉害,过去看陶器上的图片看不出门道,这篇论文思路甚好。

This ancient pottery holds the earliest evidence of humans doing math.

Flower designs on 8,000-year-old pots show “mathematical knowledge,” archaeologists say.

010725_TM_pottery_feat.jpg(距今近 8000 年的哈拉夫陶器上的花卉图案(部分图案已展示)显示花瓣数量呈几何序列。)

原文链接:https://www.sciencenews.org/article/ancient-pottery-math-earliest-evidence?utm_source=Live+Audience&utm_campaign=ecb5ae8ac9-nature-briefing-daily-20260116&utm_medium=email&utm_term=0_-33f35e09ea-499121480

作者:汤姆·梅特卡夫

2026年1月13日上午11:00

分享此内容:

距今近 8000 年前制作的陶器上出现的植物状图案,可能是迄今为止发现的最早的数学思维证据。

耶路撒冷希伯来大学的两名考古学家在最近的一项研究中指出,美索不达米亚北部古代文明陶器上绘制的许多花卉图案都呈现出规律性的花瓣数量,这些花瓣数量遵循一定的数学规律。科学家们表示,这一发现表明,当时的人们在土地和农产品分配方面也运用了类似的数学概念。

虽然在距今46000年前智人绘制的众多古代洞穴壁画中很少见到植物,但植物图案——包括树木、树枝、灌木和花卉——在美索不达米亚晚期新石器时代哈拉夫人(公元前6200年至公元前5500年)的陶器装饰中却十分常见。这项于12月5日发表在《世界史前史杂志》上的新研究,对哈拉夫陶器碎片上的所有植物图案进行了编目。但约瑟夫·加芬克尔表示,正是这些花卉图案“向我们展示了当时人们的数学知识”。

一幅黑白素描再现了一个陶瓷碗,碗上装饰着重复的几何和点状图案网格。哈拉夫陶器上的许多装饰(如图所示)描绘了棋盘格和几何图案中的程式化植物(在这种情况下是四瓣花)。

加芬克尔和莎拉·克鲁维奇研究了自20世纪30年代以来在考古遗址中出土的数千块哈拉夫陶器碎片,并从中鉴定出375块绘有花卉图案。加芬克尔表示,几乎每块陶器上的花朵都由四片、八片、十六片、三十二片或六十四片花瓣构成——这种“几何”递增表明,这些图案的设计灵感来源于二的幂次方。

部分碎片上的大型图案也暗示了数学知识。许多碎片来自装饰精美的彩绘碗,其中一些碗上绘有棋盘格图案内的程式化花卉。

作者认为这些数字并非偶然,而是表明哈拉菲人掌握了此类数学的先进知识。这种基于数字倍增的理解,可能是哈拉菲人为了将土地或作物均分而发展出来的。“这是我们从其他任何来源都未曾发现的数学知识的证据,”加芬克尔说道。

哈拉夫数学与苏美尔人1500多年后在同一地区开创的六十进制(或称六十计数法)数学有着显著的不同。虽然六十进制数学在很大程度上已被十进制数学所取代,但它仍然应用于计时、天文学和几何学等领域。“我们这里所拥有的,”加芬克尔说,“是一个更早的数学体系,早于六十进制。”

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片


阅读原文

跳转微信打开

好文推荐丨袁毓林:疑问的大伞是怎样撑起来的?——从问答的概念图式看疑问形式的允准与缺省条件

2026年1月25日 11:51

语言学札记簿 2026-01-25 11:51 江苏

疑问的大伞是怎样撑起来的?——从问答的概念图式看疑问形式的允准与缺省条件


好文推荐



疑问的大伞是怎样撑起来的?——从问答的概念图式看疑问形式的允准与缺省条件

 《语言科学》 2025年第6期

 关键词:问答;经验完形;经验维度;允准疑问形式;概念驱动;言语规划


提要


      论文从问答的概念结构(经验完形及其经验维度)出发,说明由于说话人(S)的认识状态(不明白、想知道)这一经验维度的突显,使得相关的认识动词和名词可以覆盖和压倒询问动词,来独立地撑起疑问的大伞,从而可以允准疑问形式。文章还从言语产生的概念驱动和言语的宏观与微观规划的角度,阐释了为什么疑问形式的允准者可以是跨单位(词和短语)与跨范畴(动词、名词、形容词、副词和连词)的,为什么在认识动词和属性名词构成的述宾结构中疑问形式可以自由地隐现(构成隐式问句)。


全文



注:本文原载于《语言科学》2025年第6期。

语言学札记簿

感谢您关注公众号,

让我们一起学习吧!


感谢您读到最后,帮我点个“赞”+“推荐”,并“分享”给更多人吧!

阅读原文

跳转微信打开

征稿通知 | 第27届汉语词汇语义学国际研讨会(2号通知)

2026年1月25日 11:51

徐惠 2026-01-25 11:51 江苏

2026年6月烟台CLSW2026征稿,含汉语词汇语义相关议题,2月8日截稿。

会议简介

汉语词汇语义学国际研讨会 (Chinese Lexical Semantic Workshop,简称 CLSW) 由台湾中研院院士、美国伊利诺大学讲座教授郑锦全先生、北京大学俞士汶教授与香港理工大学讲座教授黄居仁教授等联合倡办,自2000年起在香港、北京、台北、新加坡、厦门、新竹、 烟台、苏州、武汉、郑州、澳门、乐山、嘉义、南京、福州、呼和浩特等地举行。CLSW是汉语词汇语义学和相关领域(理论语言学、应用语言学、计算语言学、计算词汇学、计算词典学、心理语言学、社会语言学等)的重要学术会议,多年来已经产生了广泛的影响。在当今大语言模型与语义运算集聚了绝大部分研究能量与社会注意的环境下,汉语词汇语义学的研究可从跨领域的视角,为生成式人工智能带入语言知识与文化蕴涵。

第27届汉语词汇语义学国际研讨会将于2026年6月26日-28日在中国烟台举行,本届会议由鲁东大学主办、鲁东大学人文学院承办。主办方诚挚邀请各位研究者不吝赐稿。


PART1

征稿范围

本次会议征稿议题以“汉语词汇语义研究”为研究重点,包括但不限于以下议题:

  • 汉语词汇语义本体研究(现代汉语词汇、语义问题等)

  • 汉语词汇语义应用研究(语文教育、语言教育、语言规划、语言服务、辞书学、词典学、术语研究等)

  • 汉语词汇语义资源建设与研究方法(汉语各类词汇语义语料库建设、语义标注理论与实践)

  • 汉语词汇语义的计算方法与应用

  • 汉语词汇语义交叉学科研究与应用(人工智能、数字人文、心理语言、文化人类学等)

  • 汉语词汇语义学其他相关研究

PART2

投稿论文要求

  1.  论文可由汉语或英语两种语言书写,篇幅限8-15页(含参考文献)。如会后选择在Springer论文集或其他英文期刊出版,需将中文论文翻译为英文。

  2. 投稿只接受pdf格式电子文档。论文详细格式要求见中英文模板。(英文模板,中文模板) 

  3. 投稿论文要求匿名,请去除任何可能透漏作者信息的内容。

  4. 每位作者限投稿1篇第一作者(或独著)论文。

  5. 鼓励引用往届CLSW论文,努力提高本会在SCOPUS/EI/Google Scholar的影响因子。

近几年的英文论文集链接如下:

CLSW 2015 https://www.springer.com/us/book/9783319271934
CLSW 2016 https://www.springer.com/us/book/9783319495071
CLSW 2017 https://www.springer.com/us/book/9783319735726
CLSW 2018 https://www.springer.com/us/book/9783030040147
CLSW 2019 https://www.springer.com/us/book/9783030381882
CLSW 2020 https://www.springer.com/us/book/9783031065477
CLSW 2021 https://www.springer.com/us/book/9783030811976
CLSW 2022 https://www.springer.com/us/book/9783031289538
CLSW 2023 https://www.springer.com/us/book/9789819705832
CLSW 2024 https://www.springer.com/us/book/9789819635122

PART3

论文出版与最佳论文

所有录取论文将收录到会议论文集。程序委员会在会议结束后将对录取论文进行遴选,入选论文作者需提交英文版论文进行二次评审,通过后将由Springer出版 LNAI系列论文集,进入EI、SCOPUS等检索,并纳入Google Scholar Metrics学术出版品统计。本届会议也将根据论文主题推荐优秀论文至《郑州大学学报》(理学版)、The International Journal of Knowledge and Language Processing (IJKLP), International Journal on Asian Language Processing (IJALP) 等期刊发表。

本届会议将设最佳论文奖。

PART4

重要日期

投稿截止日期:  2026年2月8日

录用通知日期:  2026年3月7日

终稿截止日期:  2026年4月6日

会议日期:2026年6月26日-28日

PART5

投稿系统


= END =

相关链接:

征稿通知 | 第27届汉语词汇语义学国际研讨会(CLSW2026)

(本次通知较之前通知区别在于:①投稿截止日期延长至2026年2月8日、录用通知日期延长至2026年3月7日;②新增投稿系统链接

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

期刊动态 | 《外语与外语教学》“计量语言学研究”专栏征稿启事

2026年1月24日 00:00

徐惠 2026-01-24 00:00 江苏

2026年1月《外语与外语教学》设“计量语言学研究”专栏,诚征相关原创稿件。

转载自“语言学通讯”



随着大数据、计算科学与人工智能技术的飞速发展,语言研究正经历深刻的范式变革。计量语言学将人类语言视为复杂的“人驱概率系统”,致力于通过数理手段揭示语言结构的本质属性及其动态演化规律,已成为当代语言学最具活力的交叉前沿领域之一。为进一步推动我国计量语言学研究的纵深发展,促进语言学与数学、信息科学、认知科学的深度融合,加快构建中国特色哲学社会科学学科体系、学术体系、话语体系,《外语与外语教学》拟设立“计量语言学研究”专栏,现面向海内外广大学者诚征高水平原创稿件。

本专栏倡导“理论引领、方法创新、数据驱动”的研究范式,主张从核心理论问题出发,采用计量分析方法,依托大规模语料库,揭示语言系统内部要素间的动态关系及其背后的认知或演化机制,最终实现对语言学核心理论的回答与重构。

本专栏鼓励但不限于以下征稿主题:

理论驱动的语言定律研究

语言共性与语言类型研究

数据驱动的计算认知研究

汉语为中心的跨语言比较研究

语言计量方法的创新与评估研究

基于计量方法的数字人文研究

时间节点:

摘要提交截止时间:2026年2月10日

摘要录用通知时间:2026年3月10日

全文提交截止时间:2026年7月15日

计划录用/发表时间:2026年12月

有意投稿者,请参照编辑部征稿摘要模版(附在本启事末尾),运用地道流畅的中文撰写400—500字摘要,包括研究背景、研究目标/问题、研究方法、研究结果等,并附重要参考文献。

所有稿件应具有鲜明理论导向,力求在严谨的数理建模中洞察语言的本质规律与人文属性,实现计量分析与理论阐释的深度融合。文章应做到观点明确、数据可靠、逻辑严密、论证充分。

请将征稿摘要以附件形式发送至dwperiodical@163.com, 并在邮件的主题栏标明:计量语言学研究专栏投稿。

征稿摘要模板如下:

论文标题:(黑体4号字)

摘要:(400—500字)(楷体5号字)

关键词:(楷体5号字,不超过5个关键词)

参考文献:(请参考《外语与外语教学》最新刊发论文的参考文献格式)

作者简介:(请用300字简要介绍投稿作者的学术经历、研究领域和代表性成果)

联系方式:作者姓名、工作单位、电子邮箱、手机号码、微信号。 


                           《外语与外语教学》编辑部

2026年1月7日




本文来源:外语与外语教学

点击左下角阅读原文进入《外语与外语教学》期刊官网

公众号推广文章不代表自身立场。

如有期刊投稿咨询事宜,请联系期刊官方平台。本公众号不负责解释。

如有其它推广失当或者侵权问题,欢迎通过公众号邮箱联系删除(推广事宜联系:dianzishu@126.com) 。

限于人力,我们优先推广免费学术讲座、会议和研修


听说转发文章

会给你带来好运


比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

图灵巨头反水!ICML新规血洗学术圈,学术散户只能「裸奔」

2026年1月24日 00:00

徐惠 2026-01-24 00:00 江苏

ICML2026推作者自评级新政,引发学术圈博弈与资源分配争议。

转载自“新智元”


  新智元报道  

编辑:倾倾

【新智元导读】ICML祭出一套疯狂的评审机制,竟成了学术界的救命稻草。连AI教父Bengio都站台支持:在信息过载的时代,我们必须学会利用「偏见」来降噪。

2025年,NeurIPS的投稿洪峰冲破3万大关——这比一年前直接翻了近乎一倍。

这3万篇论文构成的认知过载,足以让现存的任何人类评审系统当场宕机。

学术界的「同行评审」系统,名存实亡。

面对这场审稿危机,ICML 2026终于坐不住了。他们推出了一项极具颠覆性、甚至带有博弈论色彩的新政——作者自评级。

我们审不动了。你们自己招吧:手里这几张牌,哪张是凑数的废纸,哪张是真正的王炸?

这听起来像是「让嫌疑人给自己判案」。如此疯狂的政策为什么能落地?因为它背后站着一位真正的神——Yoshua Bengio。

机制突变:从「猫鼠游戏」到「带枪投案」

ICML2026的这波操作,表面上是在向作者索要权力,实际上是给了一块「免死金牌」。

在过去,同行评审是一场「猫鼠游戏」。

作者是「嫌疑人」,竭尽全力把垃圾包装成金子;评审员是「侦探」,拿着显微镜找破绽。大家互不信任,且互相伤害。

但现在,ICML摊牌了:「侦探不够用了,请嫌疑人协助破案。」

你可能会问:

让作者自评?那还不全员满分?谁会承认自己写的是垃圾?

这正是博弈论最精彩的杀招:保序回归。系统不看你打的分数,它只看你的出牌顺序。

你不需要告诉系统这篇论文是9分还是3分,你只需要告诉系统:在我投的这3篇里,A>B>C

以前,你可以把3篇平庸的5分论文全吹成9分神作,赌评审员眼瞎放水。

现在,如果你为了捞3分的烂文,硬把它排在9分神作之前,结果烂文没救成,神作的分数还被强行拉低。

为什么ICML敢这么做?因为他们手里有数据。

ICML 2023的秘密实验结果显示,作者对自己论文的排序,更能精准预测论文未来的生死。

ICML2023实验数据分析:在不同投稿数量下,蓝色柱状图(自评级校准分)的误差显著低于红色柱状图(评审员原始分)

数据显示,作者自评排在第一位的论文,其16个月后的引用量,是末位论文的200%。

很多时候,评审员因为看不懂,把真正的神作杀掉了;而作者心里门儿清——「这篇是灌水的,那篇才是改变世界的」。

这不只是一次规则调整,这是对「同行评审神圣性」的祛魅。

官方终于承认:在这个信息过载的时代,与其相信一个只读了你论文20分钟的陌生人,不如利用作者想「赢」的野心,引导他说出真话。

图灵奖得主「叛变」:客观已死,偏见万岁

这张牌之所以能打出来,是因为桌子对面坐着一位真正的「神」——Yoshua Bengio

在JASA的官方讨论稿中,Bengio并没有把这看作一次简单的规则修补,他将其定义为:

机器学习与统计学的一次强力协同(PowerfulSynergy)。

不同博弈策略下的误差缩减。通过「保序机制」,均方误差的改善幅度最高达23.48%。

为什么连AI教父都「叛变」了?

在传统的科学理想国里,我们迷信「客观」。我们认为评审员是公正的法官,作者是狡猾的辩护人。

但在Bengio看来,这种洁癖在30000篇投稿的噪音面前,不仅幼稚,而且低效。

Bengio及其合作者DinghuaiZhang在评论中指出了一个极其深刻的哲学转变:

  • 承认「噪音」统治:当评审系统因过载已退化为「随机数生成器」,盲目追求绝对客观,本质上是一种由于傲慢导致的低效。

  • 拥抱「主观」信号:既然作者是最了解论文的人,为什么要把这个「信噪比」最高的信息源屏蔽掉?

因此,所谓的「偏见」,只要经过统计学修正,就是最珍贵的「特征」。这不仅仅是分数的博弈,更是「慢科学」的回归。

你以为Bengio只是支持一种打分算法吗?不。

作为长期呼吁抵制「PublishorPerish(不发表就出局)」的领军人物,Bengio看重的是这个机制背后的「自省」功能。

他甚至在评论中提出了更激进的「多维降维」构想:

未来的作者不应该只排「好坏」,而应该被要求在多个维度上自首:

  • 这篇论文是新颖但粗糙的吗?

  • 还是严谨但老套的?


这是一种对学术浮躁风气的技术性矫正。

当作者被迫对自己的三篇论文进行排序时,他必须在深夜里扪心自问:「难道我真的在灌水?」

这种「强制性内省」,或许才是Bengio眼中,比筛选论文更重要的价值。

算法折叠:豪门疯狂套利,散户只配「裸奔」

如果你看到这里觉得:「太好了,终于有人来整治乱打分的评审了!」

先别急着庆祝。请先看一眼你手中的筹码。

这项看似完美的「博弈论神技」,其实隐藏着一个被默许的「贫富准入门槛」。

「自评级机制」生效的前提,是你必须至少投两篇论文。

你得先有PaperA和PaperB,系统才能通过A>B的逻辑来校准分数。

如果你只投了一篇呢?对不起,系统救不了你。

你依然只能在那个充满了AI垃圾评论、随机打分的旧系统里裸奔。

这是一场针对「学术散户」的精准降维打击。

根据ICML2023的官方统计数据显示,75.5%的作者,只投了一篇论文。

这意味着那25%的「大户」,手里的多篇论文不再只是成果,而是变成了可以相互对冲、用来校准分数的「套利筹码」。

他们可以通过精妙的排序,利用统计学算法为自己的神作穿上「防弹衣」,挡住瞎眼评审的子弹。

MSE缩减的置信区间。在99%的置信水平下,误差缩减依然保持在极高区间,

而75%的「普通玩家」面对的,依然是「俄罗斯轮盘」。

如果遇到一个心情不好的评审员给了你3分,你没有任何数学工具可以反抗。

筹码越多,护甲越厚。观察红蓝柱对比可见,作者投出的论文越多(横轴),利用自评级机制缩减误差(蓝色柱状图下降幅度)的空间往往越稳定。

香港大学的WeichenWang和LSE的ChengchunShi认为,这种机制实际上是在奖励「灌水」。

为了获得「被校准」的资格,为了获得那层算法保护壳,实验室会被迫把一项成果拆成三项(SalamiSlicing),凑足「自评级」的入场券。

以前的强者靠质量通吃;以后的强者,恐将靠「堆量」和「排序策略」进行收割。

ICML2026的新政,或许确实解决了「评审准确度」的问题,但它解决的方式是——优先保护那些拥有更多资源的人。

这是一次赤裸裸的「算法折叠」。

ICML2026砸碎的不仅是评审规则,还有我们对「学术乌托邦」的最后一点幻想。

当人类评审员在30000篇论文的洪流中彻底窒息,机器和算法接管裁判权,已是历史的必然。

这不再是一个比拼谁更「客观」的时代,这是一个比拼谁更懂「博弈」。

ICML已经用算法告诉我们,在算力爆炸的今天,「诚实」不再是一种高尚的道德自律,而是一条被博弈论强制执行的、冷冰冰的「生存策略」。

醒醒吧,旧世界已经塌了。


参考资料:


秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

成果速递 | 饶高琦:《现代汉语词汇历时计量研究》

2026年1月23日 17:02

徐惠 2026-01-23 17:02 江西

推文介绍饶高琦《现代汉语词汇历时计量研究》的构建、核心发现及应用价值。

转载自“北京语言大学语言科学与资源学院”

作者简介



饶高琦,北京语言大学副研究员、硕士生导师。北京语言大学语言学及应用语言学博士。中国中文信息学会青年工作委员会、计算语言学专委会、社会媒体计算专委会委员。主要研究方向为语言资源学、教育技术、语义规划学和数字人文。主持国家语委科研项目、教育部人文社科基金项目等多项课题,发表学术论文 50 余篇,参与起草规范、标准 5 种。



内容简介

本书以计量手段观察并分析现代汉语词汇的历时演变现象,为此构建了长时间跨度、大规模语料库。该语料库以 1946—2015 年的 70 年连续历时报刊语料为基础,语料经分词、词类标注等加工。该语料库已并入北京语言大学 BCC 语料库系统,开放在线检索服务。

基于语料库,本书以定量分析与统计建模为核心方法,围绕词汇系统分层与现代汉语历时分期两大基本问题展开探索:提出以时间敏感性为标尺的四分层体系,揭示词汇演变速率差异;基于时敏层词汇使用特征,建立以 1980年、2000 年为边界的“两层三段”分期系统,形成研究当代汉语演化的参考坐标。

本书探索了研究结论在语言规划方面的应用:通过语料库与分期系统自动抽取 70 年流行词语与年度词,服务语言实态监测;以异形词、规范汉字、字母词为切入点,提出“内容—形式对”规范模型。


序   言

目    录



比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

悼念 | 郁贤皓先生,其学其德,万古长青

2026年1月22日 00:01

沉痛悼念的 2026-01-22 00:01 江西

94岁文史泰斗郁贤皓先生仙逝,深耕文史数十载,学术遗产与精神永存。


郁贤皓先生 1933 年生于上海,毕业于南京师范学院中文系,毕生深耕文史领域,以考论兼善、诗史并重的治学精神,为学界留下不朽丰碑:从筑牢唐代职官研究根基的《唐刺史考》,到倾注毕生心血的《李太白全集校注》,从助力古诗文普及的辞典编撰,到不断增补完善的《唐刺史考全编》,十余部著作跨越数十春秋。这些沉甸甸的成果,既是郁贤皓先生数十年学术深耕的生动写照,更是他留给学界与后人的珍贵精神遗产,承载着先生对文史研究的赤诚与坚守。先生的道德文章如星汉璀璨,治学精神似松柏长青,虽溘然长辞,但其学术遗产与人格风范将永远光照学林、激励来者。

愿先生一路走好,千古流芳!




比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

少数民族语言和汉语方言研究系列工具发布

2026年1月21日 15:08

徐惠 2026-01-21 15:08 江苏

暨南大学发布四款少数民族语言与汉语方言研究工具,免费开放!

由暨南大学范俊军教授师生团队研发的声飞语言调查软件、词表分析器、方言字表分析器、彝文转换器等语言调查研究系列软件近日发布。

01

声飞软件

声飞软件(Sonicfield_v2.0)是田野之声语言田野调查软件升级版。具有以下功能:(1)编制词汇调查表、句子调查表、方言调查字表;(2)对调查表条目实时采集录音和录像;(3)辅助调查人员听辨录音和录入记音转写;(4)实时剪辑录音;(5)输出可机读的标准数据表和多媒体静态交互网页。

02

词表分析器

词表分析器(wordlistalyzer_v2.0)适用于分析处理少数民族语言和汉语方言词汇调查材料。主要功能有:(1)归纳和输出声韵调表、音节表;(3)音系单位统计;(3)变调、四音格、重音分析;(4)词类、构词、借词与音系相关性分析;(5)音系单位熵值计算;(6)可视化输出。

03

方言字表分析器

方言字表分析器(sonicdialetalyzer_v2.0)适用于汉语方言单字调查材料。主要功能有:(1)归纳和生成方言声韵调表;(2)归纳和生成方言同音字汇;(3)统计声韵调、音节的频率和共现关系;(4)生成《广韵》音系与方言今读对照表;(5)生成普通话与方言读音对照表;(6)基于相似度、编辑距离、音位向量进行方言分类;(7)生成方言古今字音查询的静态网页地图。

04

彝文转换器

彝文转换器(nuosuii2ipa v2.0)可实现规范彝文与彝语拼音和国际音标注音的转换。功能有:(1)对中文和彝文混排文本的彝文字词标注彝语拼音和国际音标注音;(2)将彝文篇章文本转换为彝语拼音文本和国际音标文本;(3)输出docx或txt文档。

以上工具可辅助本土语言调查研究者完成通用的、耗费人力物力的语料整理、描写分析工作,减轻劳动强度,提高研究效率。所有软件免费开放,需要者可自由索取。

联系人:

  • 吉木莫衣乃   1244707072@qq.com  

  • 范俊军  tfanjunjun@126.com



比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

❌