阅读视图

12 - 南京师大比特人文公众号

袁毓林 | 《新文科视角下的计算社会语言学研究》

2026年4月21日 09:00

袁毓林 2026-04-21 09:00 江苏

新文科下以第一代交叉学科融合构建计算社会语言学，研究语言社会变异与计算建模。

转引自：《语言文字应用》2024年第1期，第5-16页

作者简介

袁毓林，澳门大学教授，主要研究理论语言学和汉语语言学。

新文科视域下的计算社会语言学研究

袁毓林

澳门大学人文学院中国语言文学系/北京大学中文系

摘要：新文科建设的目标之一是：多种学科在研究内容和理论方法上的交叉与融合，从而形成新的学科方向和研究范式，以及相应的复合型人才培养模式。为此，本文提出一种可操作的路径：利用已经发展起来的若干第一代交叉学科，融汇成第二代交叉学科。比如，对于“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域，可以借助“计算语言学”与“社会语言学”等第一代交叉学科，形成“计算社会语言学”这种第二代交叉学科。这种操作路线可以细化与落实新文科建设，并提供必要的学科规训。文章还以当代社会的“物理—精神—信息”三元空间，以及其中说话者的社会身份、个体人格和社交互动对语言使用和变异选择的影响为例，说明计算社会语言学的理论、方法和议题。

关键词：新文科建设；第一/二代交叉学科；计算/社会语言学；三元空间

一、新文科建设视域中的社会计算

新文科建设的一个重要特征是，建设一批多学科交叉的人文社会科学的新兴研究领域或研究方向。这种愿景和理想是非常美好和丰满的，有助于培养能够应对未来挑战的跨学科的复合型人才；但是，实现起来却是十分艰难的，从具体的学科群选择与组合、研究目标设计到操作路线与实施方案的制订，都需要进行不断的探索和尝试；并且，要冒着因尝试失败而沉没了机会成本的风险，甚至还可能要背上误人子弟的骂名。因此，不同的学科怎样寻找相关的伙伴学科，形成有议题（研究内容新颖而且重要）、可操作（有技术支撑）、有发展前途（带来理论突破或应用落地）的交叉学科，是新文科建设成败的关键要素和重中之重。

一般的印象，新文科不同于传统文科的一个标志是：有意识地在人文社会科学的研究内容或方法中，系统性地融入当代前沿的科学技术，以期形成新的学科方向和研究范式，以及相应的复合型人才培养模式。比如，随着大数据(Big Data)技术的跨越式发展，“计算”已经越来越成为人文社会科学领域的关键词。跟“计算”相结合的多学科/交叉学科/跨学科的（multi/inter/trans/cross-disciplinary）研究领域也开始大量涌现，形成了数字人文（Digital Humanities）、社会计算（Social Computation）、计算社会科学（Computational Social Science）、计算传播学（Computational Communication）、计算社会学（Computational Sociology）等新兴学科或研究方向。值得一提的是，2009年，哈佛大学的David Lazer联合从事信息科学、社会学和物理学的15位学者，在Science杂志上联名发表文章(Lazer, et al. 2009)，创造性地提出了“计算社会学”（Computational Sociology）这一新兴学科。他们阐述了利用计算手段，从大数据中揭示社会学规律的学术思想和趋势。这标志着社会学研究进入到数据计算时代。因为，当代科学技术的显学是计算机科学技术和网络大数据技术；所以，像“计算社会学”肯定可以算是“新文科”。随后短短几年内，计算社会学已成为人文社科领域近年来最重要的研究范式。《科学》（Science）、《自然》（Nature）和《美国国家科学院院刊》（PNAS）等国际顶级学术期刊上，大量涌现计算社会学的研究成果,众多学术期刊出版专刊介绍计算社会学研究的进展。美国还成立了计算社会学学会,George Mason大学甚至成立了计算社会学系，并成为世界上第一个正式授予计算社会学博士学位的单位。计算社会学无论对于揭示人类与社会规律，还是对于用户个性化服务，均具有重要的意义。因此，基于社会媒体大数据的计算社会学研究，在学术界和产业界均引起了广泛的关注。这可以说是国际学术界新文科开拓与建设的一个成功的范例，足以为我们的新文科建设提供经验。

二、社会计算的议题与方法

我们认为，就利用社会媒体大数据的社会计算和计算社会学而言，也并非只有原来从事计算机科学技术和社会学的学者才可以涉足；其实，语言学研究者也是可以积极参与的，并且还是可以大有作为的。因为，社会媒体的海量数据中，绝大部分是用自然语言写成的长短不一的文本；其中蕴藏了跟用户及其复杂的社会结构有关的丰富信息，是社会学、心理学（特别是社会心理学）和语言学（特别是社会语言学）等学科的重要研究对象和研究角度。但是，这些学科所需的信息都隐藏在复杂的语言背后，需要利用自然语言处理和理解技术挖掘出来，才能被计算社会学研究进一步加以利用和提炼。而这种对语言数据的处理，正好是语言学、自然语言处理和计算语言学等学科的强项。

近年来，随着机器学习和自然语言处理技术的发展，如何更好地分析社会媒体大数据中的自然语言（即文本信息），已经成为社会计算、计算社会学研究的热点；吸引了众多不同学科的学者的研究兴趣，学科体系与范式已初具规模。并且，取得了不少令人鼓舞的成果。比较著名和成熟的研究有下列四个方面：

（1）词汇的时空传播与演化研究。比如，哈佛大学研究团队利用Google Books收集并扫描识别的1800年到2000年之间的500万种出版物（占人类所有出版物的4%），通过不同关键词使用频度随时间的变化，分析了人类文化演进特点，做出了很多惊人的或有意思的发现。例如，他们发现在过去几百年里英语中越来越多的不规则变化动词演化成了规则变化动词（Lieberman, et al. 2007）。再比如，通过Google Books中历年来使用“The United States is”和“The United States are”两种表达形式的统计趋势图，来定量地分析美国作为一个统一国家的概念是如何慢慢形成的（Aiden & Michel 2013）。词汇是文本中负载信息的基本单位，考察社会媒体中词汇的时空传播与演化，无论对语言演化研究，还是对社会管理，均具重要意义。

（2）语言使用与个体差异。比如，Pennebaker & King（1999）以词汇作为语言使用定量分析的基本单位，在给定的个体或群体对应的文本中进行词频统计，从而建立起个体差异（即不同人格）与词类比例（即语言使用特点）之间的关联关系。研究者们发现，抑郁与自杀者往往会在文本中发出可侦测的求救信号；初次约会的时候对象之间几分钟的对话就可以预测彼此的好感，而情侣间的对话也可以预测几个月后持续交往的概率；团队的凝聚力和合作倾向也可以通过内部对话做出预测，等等（详见下文§5）。近年来，在社会计算领域提出了用户建档（user profiling）的研究任务，旨在利用用户产生内容预测用户的各种属性，既包括用户的各种简单属性，如性别、年龄和地理位置等，也包括用户的复杂属性，如兴趣、政治倾向、性格特点和主观幸福感等。

此外，还有（3）语言使用与社会地位的关系，和（4）语言使用跟群体的关注话题与情绪态度，等等。诸如此类的研究，不仅具有社会学、心理学和语言学方面的学理价值，而且在舆论监测、社会管理和客户分析等方面，都具有重要的应用价值。

三、从“计算语言学”和“社会语言学”

到“计算社会语言学”

众所周知，高等院校的学科体系和专业分工是已经制度化了的。并且，不同的学科在学科传统、方法论和学术追求与价值观方面，也存在巨大的差别。这在历史上形成了所谓的“学科鸿沟”或“学术壁垒”，或者如俗话所说的“隔行如隔山”。因此，要把不同的学科整合起来，殊非易事。对此，我们提出一种可操作的实践路径：尽可能有效地借鉴和利用已经发展起来的相关的几种第一代交叉学科，再次进行交叉与融合，从而形成第二代交叉学科。这样做好像是在比较坚固的旧楼上面加盖新的楼层，可以取得以旧出新、物尽其用、组合增效、事半功倍的效果。比如，面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域，和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系，可以借助已经成熟的“计算语言学”（Computational Linguistics, CL）与“社会语言学”（Sociolinguistics）等第一代交叉学科，形成“计算社会语言学”（Computational Sociolinguistics, CS）这种第二代交叉学科，从而使得相关的新文科建设不仅路径清晰、基础扎实，而且有法可依、有章可循。

关于第一代交叉学科“计算语言学”的思想源头，可以追溯到研制电子计算机的当初。大家也许知道，著名的“图灵测试”（Turing Test）就是以自然语言理解与翻译为思考背景的。相应于“自然语言处理”（natural language processing, NLP）和“自然语言理解”（natural language understanding, NLU）这种研究方向与工程领域，学者们提炼出了“计算语言学”这种学科建制与学科体系，以利于学术探索和人才培养。

关于第一代交叉学科“社会语言学”的发展与兴盛，可以归功于Labov (1966)和Weinreich, et al.（1968）等一系列关于语言与社会的共变关系的研究。他们采用口头访问、书面问卷和民族志等方法，系统地调查和研究了说话者的性别、年龄、地理位置、社会阶层和权力关系等社会结构对个体与社群的语言使用的影响，发现了说话人的有关社会变量（social variables）与语言变异（linguistic variation）之间的对应关系，揭示了语言使用的阶层差异与历史演变的重要规律，推动了社会学、心理学和语言学的深人与细化。

现在，Nguyen, et al.（2016）认识到：随着大数据的发展，相关的科学正在经历着一场范式的转变。除了聚焦于传统的自然现象描写、理论发展以及计算科学，数据驱动的探索和发现已经成为许多学科的方法论框架的有机组成部分，而计算语言学也在这进化之列。考虑到以往的计算语言学主要是捕捉语言的信息维度和语言信息传递的结构，对语言的社会维度关注很少。最近二十年来，受社交媒体大数据的驱动，计算语言学对研究社会环境中的语言的兴趣越来越浓。社交媒体平台上的大数据为计算语言学的研究提供了新方向，也具有方法论意义。当然，此方向也面临着一些挑战，比如：（1）比起计算语言学传统上用的语料来，社交媒体中的语言更口语化、变异也更多；（2）社会变量和语言之间的关系是更为动态和脆弱的，这也不同于计算语言学以往所关注的文意和结构之间的相对固定的关联。另一方面，传统的社会语言学用量化或质性方法来研究口语语料，而调查和民族志方法则是语料收集的主要手段，但是其语料规模往往较小。随着类似社交媒体平台语料的出现，大规模的数据为语言变异研究提供了更为宽阔的舞台。面对这些更为庞大也更为异质的语料，社会语言学需要新的方法论，而计算语言学则正符合这一期待。于是，他们大胆地构想一个计算语言学和社会语言学相结合的、可以被称之为“计算社会语言学”的新兴交叉领域；并且，明确其目标是从计算的角度研究语言与社会的关系。这篇论文详细地讨论了“计算社会语言学”的原理和范围及方法论特点，讨论了说话者如何使用语言来塑造对其身份的感知，并重点讨论了基于性别、年龄和地理位置的语言变异模型的计算方法；还从单个说话者转向成对、成组和社区，讨论语言在塑造个人关系、改变风格的使用以及在社区中采用规范和语言变化方面的作用；讨论了多语言和社交互动，其中概述了处理多语言交流的工具，如分析器(parsers)和语言识别系统(language identification systems)，还讨论了从计算角度分析多语言交流模式的方法；最后，该综述论文指出了“计算社会语言学”这个研究方向所面临的挑战,也即这个新兴的多学科研究领域（an emerging multidisciplinary field）的研究议程（research agenda）：扩展调查范围，调整方法框架以提高兼容性，根据社会语言学研究的需要调整自然语言处理的工具。

我们认为，这种基于成熟的若干第一代交叉学科来构建第二代交叉学科的做法，路径清晰、方法可靠、规范明确、有章可依，不仅可以指导我们细化与落实新文科建设，并且为我们的新文科建设提供制度化的学科规训（古拉丁文disciplina，英文discipline/disciplinarit）。下面，我们主要根据Nguyen, et al.（2016）和刘知远（2021）等材料，再结合笔者的语言学工作经验和文献阅读体会，简单介绍和讨论一下社会计算语言学的有关理论假设、研究方法和主要课题。

四、计算社会语言学的理论、方法与课题

作为第二代交叉学科，计算社会语言学尝试整合社会语言学和计算语言学的有关方面，从大数据和计算的角度对人们的语言（变异）和社会（参数）之间的关系进行研究，探讨对相关的语言内容及其社会背景信息的数据收集、计算建模和结果分析、及对其理论含义的揭示的一系列方法，以便在新的技术和学科背景上，加深对于语言运用中的社会动态（social dynamics）的理解，对在社会环境中使用语言这一主题产生新的见解；并且，通过这种基于社会语言学的语言研究，来改进相关的自然语言处理的工具与方法，帮助建立更加丰富的语言计算模型，从而对社交媒体上的文本及其内容处理提供更多的学术支持。比如，基于对用户语言选择的分析，自动检测用户的性别、年龄、地理位置或从属关系（工作单位或所属机构）、甚至性格特点、兴趣爱好和政治倾向等的研究，可能会给自动用户分析工具（如前述的用户建档）带来好处。反过来说，这种注重语言的社会变异的研究，可以超越经典的自然语言处理工具背后的典型假设，即语言使用同质性（homogeneity），从而让相关的语言计算工具更加贴近互联网语言运用的实际生态。

在社会语言学研究中引入计算建模方法，这是由我们这个网络时代语言运用的实际生态所要求的。因为，随着移动互联网的普及，数字信息世界这个虚拟空间已经成为人类的生活世界的一个不可或缺的组成部分。我们的社会突破了传统的“物理世界—精神世界”这种二元空间，已经全面进入了“物理世界—精神世界—信息世界”这种三元空间。人们在无处不在的信息空间中频繁交往，不断地通过语言使用来建构(construct)和塑造(shape)自己的线上身份（online identity），维护与管理自己的线上社会关系网络；从而在这种以计算机为媒介的交际（computer-mediated communication, CMC）中，形成了大量跟用户的社会变量相关的语言变异，为社会语言学的研究提供了大规模的活生生的素材。并且，信息世界通过万众上网、全民互联和迅速更新的方式，对人们的观念、行为、时尚和情绪等舆情和趋势产生全方位的实时影响。比如，在社会预测方面，社会媒体中关于候选人的提及率就是很好的预测指标。例如，根据Facebook上的支持率就能够成功预测2008年美国总统大选结果（Williams & Gulati 2009）。可见，社会环境的空间结构变化了，在社会环境中运用语言的实际生态也变化了；网络环境中的语言运用已非传统手工方式所能应付，计算建模方法已经是不二的选择。因此，对于社会语言学来说，计算建模不仅是一种方法论，更是一种认识论。在当今网络主宰人类社会的数字化生存时代，计算社会语言学是一种水到渠成的研究范式。

比如，在语料收集方面，社会语言学的传统做法是观察旁听、口头访谈和问卷调查，等等。显然，这是一个耗时费力的过程，而所得的数据集往往很小。现在，随着网络媒体的兴起，微博、论坛、评论等社交平台上用户生成的内容极为丰富，并且这些自然、非正式的语言往往带有上下文信息（比如，用户、社交网络机构、生成时间、地理位置，等等）。在一定的计算手段的帮助下，这些内容成为传统数据收集方法的一个有力的补充。这种计算社会语言学范式下收集起来的网络语料，自然地规避了Labov (1972)所谓的“观察者悖论”（observer’s paradox）：社区语言研究的目的必须是发现人们在没有被系统观察时是如何说话的，然而我们却又只能通过系统观察来获得这些数据。此外，计算语言学上常用于获得各种大规模标注数据的“众包”（crowdsourcing）方式，也可以被计算社会语言学用以获取不同的人群如何使用某种语言变体，以及不同的人群如何看待不同的语言变体的大量数据。总之，计算的视窗一经打开，社会语言学的语料收集和处理方式就别开生面，如虎添翼。

在对语料的计算建模等研究方法方面，目前的计算语言学和自然语言处理，按照语言的结构层次和任务需求，已经形成了下列相对丰富和成熟的技术和系统：（1）词汇层，自动分词、词类标注、命名实体识别等；（2）句法层，自动句法分析、依存关系分析、层次结构和成分关系分析等；（3）语义层，词义消歧、语义角色标注、同义互释、文本蕴涵分析等；（4）篇章层，指代消解、共指消解、篇章结构、话题发现与跟踪等；（5）应用层，文本分类、信息抽取、智能问答、文档摘要、机器翻译等；（6）算法模型层，除了传统的支持向量机（Support Vector Machine, SVM）、逻辑回归（Logistic Regression）、朴素贝叶斯（Naive Bayes）等算法，还有n-元语法（n-grams）、新兴的潜在变量建模方法（latent variables modeling approaches），以及最近十几年来发展起来的概率图模型（probabilistic graphical models ）、神经网络方法中的深度学习（deep learning within a neural network approach）。这些不同层面上的计算建模方法，可以在研究语言变异与社会变量的对应关系时选择性地使用。

在研究课题方面，计算社会语言学一方面继承社会语言学的两大主题：（1）社会身份与语言变异的关系，（2）社交环境与语言变异的关系；当然，计算社会语言学更加注重利用计算建模的方法，来探讨和研究这些问题。另一方面，计算社会学上已经开展的词汇的时空传播与演化、语言使用与个体差异、语言使用与社会地位、语言使用与群体分析等专题，也可以融入和拓展上述两个方面。下面三节分别简单地进行介绍。

五、社会身份与语言变异的计算方法

下面简单地举例说明，怎样建构跟社会身份（social identity）相关的语言变异的计算方法。众所周知，社会语言学的一个重要假设是：说话者用语言来构建他们的社会身份，语言（特别是其中的变异形式）是说话者用来塑造其身份的工具之一。当计算语言学认识到语言的使用可以揭示其使用者的社会模式以后，许多研究就集中于从文本中自动推断作者的有关社会变量（social variables）。这个任务可以看作一种自动的元数据检测，以期得到关于作者特征的有关信息。随着对社会趋势分析工具的需求的日益增长，人们对这类元数据检测算法的开发和改进也越来越感兴趣。在计算语言学社区中，跟种族、社会阶层等群体变量相比，依据性别、年龄和地理位置等个体变量的语言变异受到了更多的关注。

在数据收集方面，早期的研究基于语料库中的正式文本，或者在当面对话或电话交谈等受控环境中收集。随着社交网络媒体的普及，人们从博客、推特、论坛等不受控环境中收集非正式文本。由于这类数据通常缺乏明确的关于用户的性别、年龄、位置等身份的信息，因而研究人员需要使用不同的策略，从用户提供的有限信息、注释或名字上来获得足够的标签。

以性别建模为例，计算语言学研究过文本作者的自动分类。曾经用支持向量机、逻辑回归、朴素贝叶斯等算法，对作者进行基于生物学特征的二元分类。但是，社会语言学的研究表明，这种把性别作为说话者的一种固定属性的做法，忽略了说话者的主观能动性（the agency of speakers）。从社会学的角度看，性别是一种社会结构，性别行为是社会习俗的结果，而不是固有的生物学特征。如果联系会话伙伴、互动环境和社交网络，对语言使用中性别的特定模式进行计算研究；那么，可以发现：尽管某些语言特征通常被男性或女性更多地使用（比如，在词类频率方面，男人更多地用介词、冠词,而妇女更多地用代词，特别是第一人称代词；在风格方面，男人倾向于用长的词句和文本、更多地用詈辞，而妇女更多地用情绪性词语、及“omg”“lol”之类典型的社交媒体词语）。但是，个别说话者可能会偏离许多研究中强调的刻板印象（stereotypes，例如：男人善于用“报告性”言谈来交换信息，妇女于喜欢用“亲善性”言谈来建立联系）。有研究发现，在同性别的人们交谈时，他们/她们更多地使用专属于其性别的语言变体。此外，性别因文化和语言的不同而形成不同的形态。这一切，有助于更好地证明：语言（运用）本质上是社会性的，语言的共时变异和历时变化跟语言使用者的社会变量直接相关。

另外，怎样发现和分析年龄、地理位置跟语言使用的关系（比如，什么年龄层次的人、处于什么场合更加容易偏离标准语的规范）？怎样为年龄和位置的变化建模（离散的年龄段还是连续的生命周期，离散的行政区划还是连续的地理坐标）？怎样利用语言使用者在推特等社交媒体上留下的GPS信息，或者他们在用户介绍中提供的位置信息？以及怎样对这些维度的调查结果进行解释？比如，年轻人更多地使用单数第一和第二人称代词，而老年人更多地使用复数第一人称代词及介词、定指词与冠词，这种倾向性跟语言类型（是不是代词脱落型语言，pro-drop language）有没有关系？这些也是从计算角度研究社会结构如何影响语言使用的核心课题。

反过来看，如果研究清楚了由性别、年龄和位置等变量决定的说话者的社会身份，怎样影响了语言变体的选择；那么，这种成果肯定也可用以帮助改进基于身份信息的内容检测和文本分类等自然语言处理任务。比如，Dadvar et al. (2012)训练针对特定性别的分类器，来侦测网络霸凌（cyberbulling）的实例。他们发现，不同性别的侵扰者使用的语言是不同的。再比如，Hovy (2015)发现，训练针对特定性别或年龄的词嵌入向量（word embeddings），可以改善情感评价分析（sentiment analysis）和话题分类（topic classification）等工作。这就走向语言学的社会研究和计算研究的双向对流、互惠互利和协同发展，也显示出计算社会语言学的应用潜力。

事实上，计算语言学社区已经展开了从有位置标签的数据（location-tagged data）上，训练和开发自动预测说话人的位置的一系列研究。比如，Eisenstein, et al. (2010)开发了一个话题模型（topic model），来识别区域惯用词语跟语言区域在地理上的相关性。这个模型被用以根据推特文本来预测推特用户的位置，成功地通过了测试。显然，这种基于文本的话题来预测用户的位置的计算模型，可以用来发现新的具有社会语言学价值的语言使用型式（new sociolinguistic patterns）。再比如，Bamman, et al. (2014)通过增加表示美国州名的语境变体，来扩展Mikolov, et al. (2013)的“跳词语法”模型（skip gram model）。结果，这个模型学会了全局嵌入矩阵和增加的每一个语境（比如，州）的嵌入矩阵，从而捕获了词的意义的地域变体形式，最终发现了有关词的意义怎样随着地理位置的变化而产生变异。我们相信，随着诸如上面这种分布式语义表示技术等计算模型的引入，计算社会语言学的技术路线也将越来越宽广。

六、个体人格与语言变异的计算方法

事实上，对于个体的语言使用和变异选择来说，比社会身份更加隐蔽和关键的决定因素，可能是人格差异。人格心理学（personality psychology）和社会语言学的相关研究发现，人类个体的人格差异会反映在他们的语言使用特点上。因此，如何定量地建立起语言使用与个体人格差异之间的关联，是心理学、语言学和社会计算的重要课题。关于这个主题的最具代表性的计算建模工作，是20世纪90年代Pennebaker和King提出的“语言探求与词数统计”（Linguistic Inquiry and Word Count, LIWC）方法（Pennebaker & King 1999）。这是一种基于词典的词语计数程序（dictionary-based word counting program），其基本思想是：以词汇作为定量分析语言使用的基本单位，首先通过人工收集、标注的方式，建立词语的不同类别（如代词、数词、情感词等）的词典；然后在跟给定的个体或群体相对应的文本中进行词频统计，从而建立起个体差异（即不同人格）与词类比例（即语言使用特点）之间的关联关系。Pennebaker教授的研究团队已经在这方面做了大量有影响的工作。他们发现，抑郁与自杀者往往会在其文本中发出可侦测的求救信号（Chung & Pennebaker 2007）；初次约会的时候，对象之间几分钟的对话就可以预测彼此的好感，而情侣间的对话也可以预测几个月后持续交往的概率（Ireland, et al.2011）；团队的凝聚力和合作倾向也可以通过其内部对话做出预测（Gonzales, et al.2010）；谎言的有关语言特性也有助于分辨真假（Newman, et al.2003）；对语言使用进行分析，还将有助于结识新朋友（Pennebaker & King 1999）；语言使用还与年龄有千丝万缕的联系（Pennebaker & Stone 2003）等等。

目前，在大规模网络社交媒体普及的背景下，通过语言使用分析个体差异更凸显其重要性。一方面，很多在小规模数据集上建立起来的社会理论，需要在大规模真实数据集上进一步验证或再发现；另一方面，利用社会媒体用户产生的文本数据推测用户的人格或心理特点，可以在个性化推荐服务中发挥重要的作用。正因为如此，近年来，在社会计算领域中，研究人员提出了用户建档（也称为“用户画像”）的研究任务，旨在利用用户产生内容来预测用户的各种属性，既包括用户的有关简单属性，如性别（Burger, et al. 2011，Fink, et al. 2012）、年龄（Goswami, et al. 2009）和地理位置（Rao, et al. 2010，Li, et al. 2012）等，也包括用户的有关复杂属性，如兴趣（Yang, et al. 2011）、政治倾向（Rao, et al. 2010）、性格特点（Mairesse, et al. 2007，Schwartz, et al. 2013）和主观幸福感（Frank, et al. 2013，Mitchell, et al. 2013，Dodds, et al. 2011），等等。这种研究成功地把语言使用特点跟用户的其他方面的特征（如用户的社会网络结构、在线行为模式等）综合起来进行有效的属性预测。特别是，在研究手段上超越了词频统计的层面，充分利用了机器学习和自然语言处理领域的新方法，如向量空间模型（Manning et al. 2008）、隐含主题模型（Steyvers & Griffiths 2007）、时间序列分析（Hamilton 1994）等，在定量分析的广度和精度上都向前推进了一大步。这种类型的研究，为我们建设计算社会语言学开辟了新的领域和研究手段。

现在，面向大规模在线社会媒体的语言使用跟个体差异的关系的研究，尚处于起步阶段。一方面，在线社会媒体为语言的变异研究提供了极为丰富的分析素材和观察角度；另一方面，机器学习和自然语言处理的发展也为语言使用和语言变异分析，提供了更丰富的测量维度和更合适的计算建模工具。可以预期，在深度学习和语言大模型的推动下，未来将能看到关于语言使用与个体的人格差异的更多、更深层次的分析和发现，从而推动计算社会语言学向更加微观和深入的方向发展。

七、社交环境与语言变异的计算方法

语言运用往往是在成对、成组和成社群的人员构成的社会互动环境中进行的。这给了不同的说话人一个机会，来顺应或塑造社会关系，并响应特定的社交场合和相遇细节（如对话者或听众、话题和说话人的目标等）。这种跟社交环境相关的语言变异研究，特别需要计算建模的方法。因为，首先，从数据源的角度看，各种线上社区、论坛、课堂（on-line community, forum and classroom）等在线数据中，有大量的详细的交互记录，已经推动并促成了计算语言学社区关于这一主题的大量工作。其次，从上述语料中，我们可以通过一定的计算手段，来自动地提取社会关系，揭示社会关系的强弱、权力等级、礼貌策略、风格转换等对语言运用的影响因素。

语言运用往往不仅是一种信息交流的过程，而且也是一种表现自我和定位他人、以及反映说话人跟会话伙伴的相对地位的社会行为（social behaviour）。这种言语行为表现上的一致性，等于是定义了会话角色（conversational roles）。也就是说，从诸如此类的语言运用中，可以揭示相关说话人之间的社会关系的若干线索。正是认识到了这一点，计算语言学社区已经展开了基于文本的不同类型，来自动提取会话者的社会关系及其动态变化的研究，成功地从语言使用上发现了弱关系（比如熟人）和强关系（比如家人或密友）的区别。Bak, et al. (2012)用自动识别话题的方法，研究推特用户在强弱不同的关系中自我透露（self-disclosure）的差异。他们发现，推特用户面对强关系会透露更多的个人信息，而面对弱关系则会显示更多的正面的情感评价。这种现象，也许可以用照顾初次相识这种社会规范来解释。其他一些研究，已经从更广泛的数据集中自动提取了社会关系；从而发现线上互动时，发送消息的作者是向上言说（面向较高社会地位）还是向下言说（面向较低社会地位），在语言使用上有不同的表现。还有人用逻辑回归方法来对线上语料库中的权力关系进行自动分类，进而得以分析所提取出来的社会网络结构。比如，社会语言学调查了说话者如何使用语言来维持和改变权力关系，计算语言学探索了怎样从文本中自动识别权力关系。但是，对于不同社区之间的人们的社会互动，迄今的研究仍停留在简单的层面上。

关于不同权势的人们之间的语言互动，社会语言学理论曾经提出：地位越低的发言者需要从语言上去适应地位越高的听者，而地位越高的人则不需要调整自己的语言方式去适应别人（Gonzales, et al. 2010）。过去由于缺少相关大规模数据，因而有关理论一直缺少定量分析的支持。美国康奈尔大学的Mizil教授等人，选取线上和线下两个场景，验证了语言交流行为是如何体现权力关系的。两个场景分别是维基百科中编辑们的在线讨论，以及法院庭审现场的辩护对话。值得注意的是，这里所谓的语言使用方式，指的是虚词（function words）的使用，而不是实词的使用。他们调查了包括冠词、助动词、连词、高频副词、（非）人称代词、介词和量化词等8种标记，一共451个词项的使用情况。研究者观察了由甲引起的对话中，乙分别用了多少不同种类的标记来回应；并且考察了甲分别用了多少不同种类的标记，可能引起乙分别用了多少不同种类的标记来回应。值得注意的是，这种不同权势的对话者对虚词的不同的使用及其调整变化，甚至可能连对话者自己都没有注意到。然后，他们通过统计和定量分析及形式化刻画，验证了参与讨论的人之间权力的差异，会在两人如何回应对方的语言方式上有所体现（Danescu-Niculescu-Mizil, et al. 2012）。这种结论，也在推特平台上得到了验证。首先，他们同样利用介词等虚词的使用情况，考察了交流双方的语言风格是如何彼此适应的。然后，他们考察了交流双方之间影响的不对称性，以及这种不对称性与社会地位的关系；即地位高的人不会去适应地位低的人，而地位低的人要付出更多去适应地位高的人。研究结果表明，虽然推特对交流增加了一些限制（非面对面，非实时，而且只能说140个词），但交流中仍然有比较明显的语言适应行为（Danescu-Niculescu-Mizil, et al. 2011）。

一般认为，社会交往中的礼貌行为，有助于维持社会和谐和避免社会冲突。Brown and Levinson (1987)发现，语言的礼貌行为受到下列三个社会因素的影响：（1）社会距离（social distance），（2）相对的权力（relative power），（3）诉求的麻烦程度（ranking of the imposition,i.e., cost of the request，即请求的成本或代价）。幸运的是，检测礼貌的自动分类器已经被开发出来了，可用于大规模地研究礼貌策略。鉴于礼貌用语的使用跟参与对话的人的社会地位之间具有密切的关系，Mizil团队分别对维基百科编辑和Stack Exchange论坛的讨论者进行了研究。他们把用户对他人提出请求时的对话摘录出来（其中，一句是真正的请求，而另一句是客套话），然后由标注者为其礼貌程度进行评价。研究结果表明，维基百科编辑在选举过程中试图获得更高地位时，会更加礼貌；而一旦选上以后，礼貌程度随机就会下降。这种情况，同样也出现在Stack Exchange上；明显地，人们的礼貌程度跟其地位呈反比关系（Danescu-Niculescu-Mizil, et al.2013a）。

根据Labov（1972）的研究，没有单一风格的说话者；因为，说话者可能会根据他们的交流伙伴（比如，受话人的年龄、性别和社会背景），在不同风格之间进行切换（风格转换）。此外，话题（比如，政治vs.宗教）、语境（比如，法庭vs.家庭餐聚）等因素也能造成言语风格的转变。根据交际顺应理论（Communication Accommodation Theory, CAT），说话人会让其言语行为更加趋近或背离他们的对话伙伴。其中，趋近行为减少了对话者之间的社会距离。一般来说，作出趋近行为的说话人，往往会被认为是更加讨人喜欢和擅长合作的。现有的研究发现，说话人之间的互相顺应，主要体现在音高、手势、措辞等不同的维度。计算语言学社区侧重于用诸如前述的“语言探求与词数统计”（LIWC）方法，通过对线上语料中人称代词的使用（比如，更多地用单数第一人称还是复数第一人称）等的统计分析，来测度言语风格的顺应。有人发现，网上论坛的跟帖通常重复原帖的词语和句法结构，来达到顺应的效果。还有人用动态贝叶斯模型（Dynamic Bayesian Model），归纳出语料中潜在的风格状态，发现了不同的说话人在顺应方面的差异。

最后，对于社区动态的研究也是计算社会语言学的主题。因为，人们会根据谈话对象调整他们的语言使用。在社区内，规范随着时间的推移，通过成员之间的互动而出现；例如，使用俚语和特定领域的行话，或者在推特上表示转发的约定。对于这一主题的早期调查，是基于非公共社区的数据的。最近的研究则使用了来自公共在线社区的数据，比如在线论坛和评论网站。这一方向的研究，显示了利用大量在线数据定量研究社区语言变化的潜力。当然，在这种分析中，应该仔细考虑数据中的偏差，特别是当数据的动态和内容没有被完全理解时。比如，据Danescu-Niculescu-Mizil, et al. (2013b)介绍，他们以两个大型啤酒评论社区作为研究对象，发现用户在社区中一般会经历两个阶段：在第一个阶段，他们刚进入社区，会积极学习适应社区的语言使用规则；而接下来，他们逐渐不再做出改变，任由规则变化；最后，逐渐退出社区主流群体。这项研究定量地探索了在社区与个人的相互作用下，语言使用规则变化的复杂性。可见，Mizil等人的一系列研究，开创性地在社会媒体大数据上定量验证了社会语言学中的重要理论，并进一步利用该理论展开社会计算的研究。这为计算社会语言学树立了研究典范。

八、结语：用并为计算建模而研究语言的社会变异

新文科建设的出发点是多种相关学科的交叉、融合与创新，通过在研究内容、研究方法和技术手段等方面的跨学科的交融、提炼与整合，形成新的学科方向与研究范式，以及相应的复合型人才培养模式。我们充分地认识到，这种崇高而宏大的目标实施起来是困难重重的，迫切需要明确的可依循的操作路径。有鉴于此，上文提出一种在旧楼上加盖新楼层的方法：尽可能利用已经发展起来的若干第一代交叉学科，融合贯通起来形成第二代交叉学科，以取得物尽其用、事半功倍的效果。就语言学而言，面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域，和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系，我们可以借助已经成熟的“计算语言学”与“社会语言学”等第一代交叉学科，形成“计算社会语言学”这种第二代交叉学科。因为，社会语言学关注在社会环境中使用的语言的社会维度，计算语言学关注在社交网络上使用的语言的信息维度；把它们结合起来，形成计算社会语言学这种新的研究领域和学科，可以整合这两个学科的优势和强项，更好地从计算的视角来研究语言（变异）和社会（变量）之间的关系，以便更加深刻地认识人类语言在社会环境中的运作机制，更加充分地为计算机处理人类的语言提供理论、方法和材料支持。我们希望这种操作路线可以帮助细化与落实新文科建设，并且为新文科建设提供制度化的学科规训。

本文的创新点是从当代社会的“物理—精神—信息”三元空间这一特征切入，说明社会语言学的研究迫切需要计算建模这一方法。文章还以社会身份、人格特点和社交互动等对语言使用和变异选择的影响因素为例，说明了计算社会语言学研究的理论依据、语料采集与计算建模方法。

讨论至此，计算社会语言学的宗旨也就可以粗略地总结为：用计算建模的方法研究语言的社会变异，并为语言的计算建模而研究语言的社会变异（study linguistic variation by computational modeling and for computational modeling natural language）。

Computational sociolinguistics research from the perspective of new liberal arts

Yuan Yulin

Department of Chinese Language and Literature, Faculty of Arts and Humanities, University of Macau /Department of Chinese Language and Literature, Peking University

Abstract: One of the goals of the new liberal arts is the intersection and integration of multiple disciplines in research content and theoretical methodologies, thus forming new disciplinary directions and research paradigms, as well as corresponding inter-discipline talents training models. To this end, this paper proposes an operational path: using several first-generation interdisciplinary fields that have already been developed to integrate them into a second-generation interdisciplinary field. For example, in the research field of "social media plateforms-social variation of language-computational modeling", which issocomplicatedby multiple disciplines, we can use the first generation interdisciplinary fields such as "computational linguistics" and "social linguistics" to form the second generation interdisciplinary field of "computational social linguistics". This path can refine and implement the construction of the new liberal arts, and provide necessary disciplinary regulations (discipline or disciplinarit). In addition, theories, methodologies and issues of computational sociolinguistics are also exemplified in this paper by the “physical – mental – cyber” ternary space of contemporary society, where speakers’ social identities, individual personalities, and social interactions impose influence on language use and language variation choices.

Keywords: Construction of new liberal arts; First-/Second-generation interdisciplinary branches of learning; Computational/Sociolinguistics; Ternary space.

（发表于《语言文字应用》2024年第1期，第5-16页）

END

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

李斌等 | 《基于认知属性库的原型范畴研究》

2026年4月20日 09:01

2026-04-20 09:01 江苏

《中文信息学报》2016年第30卷第6期《基于认知属性库的原型范畴研究》

本文来源于：《中文信息学报》2016年第30卷第6期《基于认知属性库的原型范畴研究》

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

征稿 | AACL-IJCNLP 2026 Call For Papers

2026年4月19日 09:00

AACL-IJCNLP 2026 2026-04-19 09:00 江苏

AACL-IJCNLP 2026在横琴举办，5月25日截稿，征集NLP原创未发表长/短论文。

转载自“计算学习算法与自然语言处理”

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

Link: https://2026.aaclnet.org/

When: Nov 6, 2026 - Nov 10, 2026

Where: Hengqin, China

Submission Deadline: May 25, 2026

Notification Due: Sep 7, 2026

Final Version Due: Sep 30, 2026

Categories: natural language processing, artificial intelligence

Call For Papers

AACL-IJCNLP 2026 (the 5th AACL & 15th IJCNLP) invites the submission of long and short papers featuring substantial, original, and unpublished research in all aspects of Computational Linguistics and Natural Language Processing.

CFP: https://2026.aaclnet.org/calls/main_conference_papers/

The conference will be held in Hengqin, China from November 6th to November 10th, 2026.

Important Dates

ARR submission deadline (long & short papers) May 25, 2026

Reviewer registration deadline for ALL authors May 27, 2026

Author response and author-reviewer discussion July 7 - 13, 2026

Meta review released July 30, 2026

Commitment deadline August 26, 2026

Notification of acceptance (long & short papers) September 7, 2026

Camera-ready papers due (long & short) September 30, 2026

Main Conference (dates for Workshops/Tutorials TBD) November 6 - 10, 2026

Note: All deadlines are 11:59PM UTC-12:00 (“anywhere on Earth”).

Topics

AACL-IJCNLP 2026 aims to have a broad technical program. Relevant topics for the conference include, but are not limited to, the following areas:

Safety and Alignment in LLMs

AI/LLM Agents

Human-AI Interaction/Cooperation

Retrieval-Augmented Language Models

Mathematical, Symbolic, and Logical Reasoning in NLP

Computational Social Science, Cultural Analytics, and NLP for Social Good

Code Models

Interpretability, Model Editing, Transparency, and Explainability

LLM Efficiency

Generalizability and Transfer

Dialogue and Interactive Systems

Discourse, Pragmatics, and Reasoning

Low-resource Methods for NLP

Ethics, Bias, and Fairness

Natural Language Generation

Information Extraction and Retrieval

Linguistic theories, Cognitive Modeling and Psycholinguistics

Machine Translation

Multilinguality and Language Diversity

Multimodality and Language Grounding to Vision, Robotics and Beyond

Neurosymbolic approaches to NLP

Phonology, Morphology and Word Segmentation

Question Answering

Resources and Evaluation

Semantics: Lexical, Sentence-level Semantics, Textual Inference and Other areas

Sentiment Analysis, Stylistic Analysis, and Argument Mining

Speech Processing and Spoken Language Understanding

Summarization

Hierarchical Structure Prediction, Syntax, and Parsing

NLP Applications

Presentation at the Conference

All accepted papers must be presented at the conference to appear in the proceedings. The conference will include both in-person and virtual presentation options.

Related Resources

IEEE-ICECCS 2026: 2025 IEEE International Conference on Electronics, Communications and Computer Science (ICECCS 2026)

IEEE ICCT-PACIFIC 2026: 2026 IEEE 2nd International Conference on Consumer Technology - Pacific (ICCT-Pacific 2026)

AMLDS 2026: IEEE--2026 2nd International Conference on Advanced Machine Learning and Data Science

Asia EISC 2026: The 1st Asia Conference on Edge Intelligence and Service Computing

ACM NLPAI 2026: ACM--2026 7th International Conference on Natural Language Processing and Artificial Intelligence (NLPAI 2026)

ACIE 2027: 2027 The 7th Asia Conference on Information Engineering (ACIE 2027)

CFP-CIPCV-EI/SCOPUS 2026: The 2026 4th International Conference on Intelligent Perception and Computer Vision

I&CPS ASIA 2026: 2026 lEEE IAS Industrial and Commercial Power System Asia (IEEE I&CPS ASIA 2026)

Call for Book Chapter 2026: Human-Animal Studies and Literary Animal Studies in German Narratives

NeTCoM 2026: 18th International Conference on Networks & Communications

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

2026年“我用AI校古籍” | 我是“校书官”古籍大众智能整理计划启动啦

2026年4月18日 09:01

徐惠 2026-04-18 09:01 江苏

2026年AI校古籍计划启动，邀公众参与古籍数字化整理，设奖励与证书激励参与。

转载自“数字人文开放实验室”

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

《人工智能语料库标注术语》参编单位征集

2026年4月17日 07:30

徐惠 2026-04-17 07:30 江苏

教育部语用所启动《人工智能成都话拼音标注规范》研制，征集参编单位与专家，5月30日前报名。

转载自“语标智研”

为深入推进人工智能领域语言文字规范标准建设，服务大模型时代高质量语料数据治理需求，受有关司局委托，教育部语言文字应用研究所开展《人工智能语料库标注术语》标准研制工作。

本规范聚焦语料库建设与标注实践中的核心术语需求，梳理全流程概念体系，明确术语定义、分类框架及使用规则。成果可服务于数据处理与应用等环节，为减少术语歧义、提升应用一致性提供支撑。

现面向全国高校、科研院所、人工智能企业、数据标注服务机构及重点行业单位，诚邀相关领域具有研究基础与实践经验的单位和个人积极参与，共同推进术语标准的研制与产业落地应用。

请有意参与编制的单位及专家于2026年5月30日前扫描下方二维码或复制链接（https://f.wps.cn/ksform/w/write/383ZQL8p #routePromt）进行报名。

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

第七届清华数字人文国际论坛“未来学者”专场报名通知

2026年4月16日 09:00

徐惠 2026-04-16 09:00 江苏

第七届清华数字人文国际论坛未来学者专场招募学生投稿，7月在上海大学举办。

转载自“DH数字人文”

“未来学者”专场

人文学术的未来，寄托于未来的人文学者；也即是当下正致力于研究和探索的青年学子。为鼓励和支持本、研阶段学生投入数字人文研究，结合数字时代新方法、探索人文学术新方向，《数字人文》学术集刊持续举办第七届“未来学者”论坛，诚邀国内外的本科生、硕士生、博士生在读学生（不含博士后）投稿并参会。

期待来稿面向人文问题、结合数字方法，给出来自文学、历史、哲学、社科、艺术、教育、传播乃至政治学、图情档案等各个领域的回答和发现。

本届入围者将受邀参与第七届清华大学数字人文国际论坛“未来学者”专场，获得专家指导评议及进一步研究支持，并于本刊择优刊发。

投稿须知

摘要提交截止日期：2026年5月22日

全文提交截止日期：2026年6月12日

投稿地址：

https://szrw.cbpt.cnki.net

入围名单及参会事宜请参见后续通知。

时间地点

2026年7月10日-13日共4天

报到7月10日

会议 7月11日—12日

赋归7月13日

上海大学宝山校区（上海市上大路99号）

合作酒店

上海衡山北郊宾馆

地址：上海市宝山区沪太路4788号

总机： 021-56040088

（注：若实际报名人数超过酒店接待上限，会务组可能新增其他酒店安排接待）

我们期待您的参与，共同探讨数字人文的前沿议题，推动学术研究的创新与发展！

论文格式模板及要求-中文.pdf

会议时间地点

2026年7月10日-13日共4天

报到 7月10日

会议 7月11日—12日

赋归 7月13日

上海大学宝山校区（上海市上大路99号）

会议合作酒店

上海衡山北郊宾馆

地址：上海市宝山区沪太路4788号

总机： 021-56040088

（注：若实际报名人数超过酒店接待上限，会务组可能新增其他酒店安排接待）

论文格式模板及要求-中文.pdf

END

公号二维码-1.jpg

数字使人文更新

投稿：https://szrw.cbpt.cnki.net

数字人文门户网站：www.dhcn.cn

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

周志华：文科生在人工智能创新创业领域将发挥巨大作用

2026年4月15日 09:01

徐惠 2026-04-15 09:01 江苏

周志华称AI赋能文科生，其创意在创新创业中作用巨大，南大模式已推广。

转载自“人工智能行动信息港AI HUB”

文科生的春天来了！4月12日，作为AI领域的顶级科学家，国际人工智能联合会理事会主席周志华在常州召开的“经济大省挑大梁”破圈传播网络主题沙龙活动现场表示，人工智能的创业创新关键在年轻人，而这些年轻人中的文科生发挥了意想不到的作用。在周志华看来，人工智能成为了文科生的翅膀，让他们的想法与创意变成现实。

人工智能能做什么？年轻人又如何利用人工智能创业？周志华在沙龙中讲述了南京大学的实践，那就是在校内面向有创业意向的研究生进行“AI+创新能力提升行动计划”，并开设多门人工智能通识与应用的课程，课程异常火爆，500多名研究生参与其中。

周志华表示，今天的人工智能技术已经发展成很多实用的工具，“了解这些工具的创业者，就可以用这些工具，很快地把自己的想法变成现实。”周志华接着表示，当年轻人创业初见成效后，可以不断地改进产品或服务，他们就可以寻找真正研究算法的团队合作，改进算法原型，最终形成更优的产品，提高创业团队竞争的门槛。

“我们发现，文科生在整个过程中发挥了我们以前没有预料到的作用。”周志华在分享中表示，人工智能发展起来，不是文科生没有前景，反而是大有可为。

“人工智能给文科生能力带来的能力提升，远远超过对理工科学生的帮助。”周志华解释，因为原来文科生是“想得到做不到”，现在有了人工智能工具之后，能帮助他更好地做成事情。

“比方说，我们班上就有很好的创意，是文科生天马行空提出来的。”周志华笑言，理工科生比较严谨，往往想不到这些好创意。“而把文科生与理科生一旦放到一起，就有无限的活力。”

周志华举例，有一位同学提出，现在很多家庭都有宠物，把宠物当自己小孩一样，有的家里面还有监控系统，能不能用摄像头等工具做一个宠物翻译，这样，主人随时就能知道宠物想干什么。“结果，同学们合作，当这个创意想法做出来之后，马上有10多家宠物公司的来联系合作。”

周志华介绍，南京大学“AI+创新创业班”的模式已经开始推广。今年，南京市鼓楼区已经把南大的课程推广到了区级层面，南京市级层面还搞了一个人工智能训练营，这个模式也推向南京市，也是场场爆满，南京不同高校的学生甚至许多社会上的年轻人都热情高涨来这个班学习。

人工智能对很多传统职业已经产生了威胁，但是也会诞生出更多全新职业。周志华表示，从大方向来看，人工智能会对整个社会的发展有重大促进作用，可以把更多的年轻人的想法与创意变成现实。

“最后，我特别引用毛主席《沁园春·长沙》这首词里面有两句话，我觉得特别适合AI+创新创业。”周志华说，一句是“鹰击长空，鱼翔浅底，万类霜天竞自由”，就是面向无穷多的应用场景，发挥年轻人的各种想象力创造力，而且这件事一定是年轻的时候最好做的，所以另一句是“恰同学少年，风华正茂。”

以上来源：新华日报，由人工智能行动信息港AI HUB分享阅读

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

讲座预告 | 饶高琦《从灵感到建设 —— 以BCC语料库系统为例》

2026年4月14日 09:00

徐惠 2026-04-14 09:00 江苏

山东大学翻译学院邀饶高琦副研究员开语料库建设专题讲座，探讨大模型时代发展前景。

讲座预告

语料库是语言生活的 “显微镜”，也是语言研究中最重要的经验主义方法之一。山东大学翻译学院特邀饶高琦副研究员，带来题为《从灵感到建设 —— 以BCC语料库系统为例》的专题讲座。本次讲座将介绍语料库建设的一般性流程与关键环节，以BCC语料库系统为例，阐释数据驱动方法在语言知识萃取中的应用，同时分享新型生成式语料库的建设案例，并探讨大模型时代语料库的发展前景。

讲座时间及其他

时间：2026年4月15日（周三）19:00-21:00
地点：线上腾讯会议
会议号：970-641-445（入会请单位实名制）

主讲人简介

饶高琦副研究员：北京语言大学语言科学学院副研究员，硕士生导师，中国标准化委员会语言与术语技术委员会SAC TC62委员、中国中文信息学会青年工作委员会委员。主要研究领域为：语言资源建设、语言规划和数字人文等。在国内外期刊、会议发表论文五十余篇，起草多项团体和国家标准。创办并主编语言学公众号 “汉语堂”。

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

讲座预告 | 冯志伟《从符号处理到智能未来——大数据时代的语言学研究》

2026年4月13日 09:00

徐惠 2026-04-13 09:00 江苏

首图讲坛尚读沙龙第三讲，冯志伟5月16日主讲大数据时代语言学研究，可扫码预约。

讲座预告

首图讲坛尚读沙龙第三讲特邀冯志伟研究员，带来题为《从符号处理到智能未来——大数据时代的语言学研究》的专题讲座。

讲座时间及其他

时间：2026年5月16日（周六）14:00
地点：首都图书馆 A 座报告厅（东侧玻璃门入口）
主办：首都图书馆、商务印书馆

主讲人简介

冯志伟研究员：国家教育部语言文字应用研究所研究员、博士生导师、学术委员会委员，新疆大学天山学者。

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

会议丨我用AI校古籍——我是“校书官”古籍大众智能整理计划（2026年）启动仪式暨海外汉籍资源汇聚与典籍活化前沿论坛

2026年4月12日 09:00

徐惠 2026-04-12 09:00 江苏

2026年4月10、11日，AI古籍整理计划启动暨海外汉籍论坛在山东大学举办。

转载自“古典文献学微刊”

感谢会务组授权发布！
排版：拊石

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

“《语言文字应用》青年学者论学”第七期即将举办

2026年4月11日 09:01

徐惠 2026-04-11 09:01 江苏

《语言文字应用》青年学者论学第七期在长沙举办，聚焦语言文字与国家安全和发展战略。

转载自“语言文字应用杂志”

青年学者论学

“《语言文字应用》青年学者论学”第七期定于2026年4月10日～11日在国防科技大学军政基础教育学院举办，由《语言文字应用》杂志、国防科技大学军政基础教育学院联合主办。

论学主题

语言文字与国家安全和发展战略

主要环节

环节一：开学式

领导致辞

环节二：专家释讲

青年学者与专家就讲座内容交流释疑

环节三：青年论学

专家与青年学者就报告内容讨论交流

环节四：集体研讨

专家组织讨论交流并给予点评指导

环节五：对话辨析

专家与青年学者围绕主题自由对话

环节六：论学述评

专家对本期论学作述评总结

日程安排

0409下午（2）（再版）《语言文字应用》青年_08.png

0409下午（2）（再版）《语言文字应用》青年_09.png

集体研讨环节分组

0409下午（2）（再版）《语言文字应用》青年_10.png

0409下午（2）（再版）《语言文字应用》青年_11.png

0409下午（2）（再版）《语言文字应用》青年_12.png

专家简介
（按发言顺序排列）

图片.png

刘正江，新疆大学党委常委、副校长，教授、博士生导师。新疆文化名家“天山英才”暨“四个一批”人才，国家语言文字推广基地（新疆大学）主任。兼任新疆维吾尔自治区名词术语译文规范化委员会委员、教材审读专家组成员、出版物审读专家组成员，《新疆大学学报（哲学社会科学版）》（维吾尔文、哈萨克文）编委会主任，新疆民汉语文翻译研究中心及教育部人文社科重点研究基地“西北少数民族研究中心”兼职研究员。长期从事语言安全、语言政策与规划、民族问题等领域研究，2025年入选教育部“国家语言文字关键领域领航计划”，担任“语言与国家安全”创新团队负责人。出版专著2部，主编出版新疆维吾尔自治区规划教材“高等院校中国少数民族语言文学专业（维吾尔语言）本科系列教材”；在《光明日报》《中国社会科学报》《新疆大学学报（哲学社会科学版）》等报刊发表学术论文50余篇；主持国家社会科学基金项目及省部级科研课题多项，其中国家重大委托项目1项；多份咨询要报获中央级及自治区主要领导批示。

图片.png

胡键，同济大学当代中国马克思主义研究院副院长、长聘教授、博士生导师。主要从事全球化、全球治理、马克思主义与当代等研究，尤其擅长跨学科研究；兼任上海市社会科学普及研究会副会长；曾长期担任《社会科学》杂志社社长、总编；出版个人专著《中国式现代化的城市软实力建设》《“一带一路”倡议与提升中国文化软实力研究》《中国和平发展崛起进程中的软实力建设方略》《资本的全球治理》等10部；在《中国社会科学》《世界经济与政治》《世界社会科学》等重要刊物上发表论文170余篇，其中70余篇被《新华文摘》《中国社会科学文摘》、人大复印资料转载；主持了国家社科基金重点项目、后期资助项目、重大项目子课题，以及上海市社科规划项目等10余项。

梁晓波，国防科技大学军政基础教育学院军事外语系教授、博士生导师。国务院政府特殊津贴专家，湖南省优秀青年社科专家，军队国防语言、军语建设、心理与认知域等领域专家，国防科技大学教学名师。主要从事国防语言、军事话语、国际传播和认知语言学的研究。主持国家社科基金重大项目等省部级项目10余项，出版著作等10余部，发表论文百余篇，获湖南省优秀社科成果一等奖。

图片.png

刘洪东，山东大学外国语学院副院长、教授。文学博士，国家一流专业法语和法语语言文学学位点带头人，国际组织与全球治理新文科专业和国际组织与跨文化交流微专业负责人，外国语学院国别区域研究团队负责人，现任外国语学院副院长、教育部高等学校大学外语教学指导分委员会委员，英国谢菲尔德大学、比利时列日大学和法国雷恩政治学院访问学者，主要研究方向为法语教学法、语言政策与语言规划、法语国家与地区研究、国际化人才培养等。主持国家级和省部级研究等项目十余项，主编或参编国家级规划教材7册，主持开设慕课5门，出版著作4部，发表期刊论文和智库成果三十余篇，获得山东省教学成果奖特等奖和一等奖。

图片.png

马晓雷，国防科技大学军政基础教育学院军事外语系主任、教授、博士生导师。北京外国语大学外国语言学及应用语言学博士。军队院校外语协作联席会委员、中国语文现代化学会－语言治理研究会常务理事、湖南省教学指导委员会委员、湖南省学位委员会学科评议组委员、湖南省翻译协会常务理事、国防科技大学学科领军人才培养对象、国防科技大学学术委员会专家库成员、国防科技大学首批青年拔尖人才培养对象。主要从事国防语言、军事语言技术、军事外语教育等领域研究。曾获湖南省社会科学成果一等奖、湖南省教学成果二等奖、三等奖。2010年获评北京市优秀博士学位论文，2011年获评全国优秀博士学位论文提名。立三等功1次。

END

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

吴奖时刻丨张民教授：这份荣誉属于所有为人工智能事业默默耕耘的奋斗者

2026年4月10日 09:00

徐惠 2026-04-10 09:00 江苏

张民团队获吴文俊AI科技进步特等奖，其NLP技术达国际领先且应用广泛。

转载自“中国人工智能学会”

吴文俊人工智能科学技术奖

2026年3月29日，第十五届吴文俊人工智能科学技术奖颁奖典礼在常州隆重举行，现场颁发了科技贡献奖、科技进步奖、自然科学奖、技术发明奖及青年科技奖等多个重磅奖项，全方位致敬在智能科技领域深耕细作、勇攀高峰的先行者们。今天，我们将走近2025年度吴文俊人工智能科技进步奖特等奖获奖项目——深度自然语言理解和生成关键技术及应用。

PART.01

『项目简介』

【成果名称】深度自然语言理解和生成关键技术及应用

【完成人】张民，李俊涛，陈科海，余正涛，肖桐，户保田，刘学博，李正华，骆卫华，王超超，李军辉，张梅山，高盛祥，黄于欣，朱靖波

【完成单位】哈尔滨工业大学（深圳），苏州大学，阿里巴巴达摩院（杭州）科技有限公司，昆明理工大学，智慧芽信息科技（苏州）有限公司，东北大学

【提名单位】哈尔滨工业大学（深圳）

第一完成人简介

张民教授

哈工大（深圳）特聘校长助理，计算与智能研究院院长，苏州大学未来科学与工程学院院长。ACL/AAIS Fellow。国自然创新群体（A 类）首席科学家，国家杰青，“国家百千万人才工程”入选者，国家有突出贡献中青年专家，享受国务院政府特殊津贴。AFNLP 候任主席，ACL/SIGHAN 主席 (2020-2023)。研究方向包括自然语言处理、大模型、人工智能和 AI4SE。CSRankings NLP 领域个人和团队排名世界第一（2022-2026），Best Paper 5 篇（ACM MM 2022、COLING 2022 等）。提出以语言为核心的语言智能原生的人工智能新范式，团队自主研发“立知”Uni-MoE 全模态混合专家大模型，是国内高校唯一拥有完整自主知识产权、获网信办和工信部双认证的大模型，实现了大模型技术从“跟跑”，到“并跑”和“领跑”的跨越式发展。曾或现任 IEEE/ACM T-ASLP、CL、NLE、JCST、中国科学：信息科学、软件学报等 11 本国内外学术期刊编委和高级领域编委。

团队项目简介

团队风采

语言是知识的载体，文字是知识的固化，语言智能是人工智能的基石。项目团队几十年来聚焦语言智能研究，历经以语言学为基础的符号逻辑主义时代，以特征工程为核心的统计机器学习时代，以预训练和单一任务精调的深度学习时代，迎来了智能涌现的大模型时代。团队始终坚持“一个中心、两个基本点”的科学理念，即以“语言智能”为核心，以“语言结构与语义的深度理解”和“语义连贯与准确的高效可控生成”为基本点，提出了符号主义与连接主义有机融合、以语言为核心的语言智能原生的人工智能新范式，自主研发“立知”Uni-MoE 全模态混合专家大模型，攻克了多项智能建模技术难题。项目成果获多位诺贝尔奖得主、图灵奖得主 Geoffrey Hinton、Yoshua Bengio 和 OpenAI 创始人等国际顶尖学者引用和积极评价，经院士专家鉴定达国际领先水平，并成功应用于阿里巴巴等几十家企业，支撑产品进口替代、打破国外封锁，近三年创收超 160 亿元，技术年调用量逾 6000 亿次，服务全球 200 余个国家和地区的数十亿消费者，月活设备超 6 亿台。

PART.02

『获奖理由』

本项目由哈尔滨工业大学（深圳）牵头，联合苏州大学、阿里巴巴达摩院（杭州）科技有限公司、昆明理工大学、智慧芽信息科技（苏州）有限公司、东北大学六家主要完成单位，面向深度自然语言理解与生成这一人工智能核心领域，针对复杂语义理解、自然语言生成、跨领域适配等关键问题取得了突破性进展。主要技术创新包括：提出了复杂语言结构与深层语义的高精度理解方法，融合了多源符号知识的高效可控文本生成范式和混合专家驱动的垂直领域自适应框架，建立了深度语言理解新体系，实现了语义精准、一致连贯的文本生成，并增强了跨模态、跨领域的自适应能力。项目技术已在多个行业头部企业大规模落地应用，取得显著经济与社会效益，有力推动行业创新与技术进步。整体技术达到国际先进水平，产业应用成效突出，推广前景广阔。

中国人工智能学会副理事长赵春江院士为张民教授颁奖

获奖感言

能获此奖，莫大荣焉！我们深知，这份荣誉不仅是授予我们的，更是授予所有为人工智能事业默默耕耘的奋斗者，是对自然语言处理和“智能涌现”大模型时代的充分认可！

衷心感谢中国人工智能学会和吴文俊人工智能科学技术奖励委员会。吴先生等前辈们在新中国诞生之初百废待兴中开创中国人工智能研究之先河，励精图治，使中国成为唯一能和美国并跑的人工智能强国，中国人工智能学会成为中国最具权威性的人工智能学术组织。

人类社会已经进入人工智能时代，时代飞速发展，人类社会将被重塑，人类面临前所未有的挑战和机遇。让我们一起，抓住这一历史机遇，为实现我国人工智能科技自立自强、中华民族伟大复兴和全人类的人工智能事业快乐幸福地工作和生活！

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

江苏省修辞学会2026年年会暨第二届语言战略与话语修辞国际学术研讨会（三号通知）

2026年4月9日 09:01

徐惠 2026-04-09 09:01 江苏

苏大7月办修辞学国际研讨会，设青年优秀论文奖，5月31日截止报名。

转载自“江苏省修辞学会”

会议通知

为推动我国中西修辞学界的深度对话，探索在全球化和跨文化背景下修辞学发展的新路径、新范式，进一步深化语言战略与话语修辞研究，江苏省修辞学会拟于2026年7月在苏州举办江苏省修辞学会2026年年会暨第二届语言战略与话语修辞国际学术研讨会。会议由江苏省修辞学会主办、苏州大学外国语学院承办、西交利物浦大学语言学院和苏州城市学院协办。会议主题为：中西修辞研究的交流互鉴。届时，大会将邀请国内外知名学者做主旨发言，并组织专题论坛。

一、会议主题

中西修辞研究的交流互鉴

主要议题

包括但不限于以下议题：

1）话语、修辞与社会变革

2）修辞学跨领域融合研究

3）中西修辞史研究

4）中西修辞教育研究

5）“修辞能力”研究

6）中西修辞范畴研究

7）中西修辞批评研究

8）修辞与传播研究

主旨发言专家（音序）

1）Angeliki Athanasiadou (希腊塞萨洛尼基亚里士多德大学教授)

2）Randy Harris (加拿大滑铁卢大学教授)

3）Mark Turner (美国凯斯西储大学学院教授）

4）皇甫素飞（淮阴师范学院教授）

5）鞠玉梅（齐鲁工业大学教授）

6）苗兴伟（北京师范大学教授）

7）束定芳 (上海外国语大学教授)

8）谭学纯 (福建师范大学教授)

9）袁影 (苏州大学教授)

10）祝克懿（复旦大学教授）

11）宗守云（上海师范大学教授）

主编论坛（音序）

1）方小兵（南京大学教授、《中国语言战略》主编）

2）高群（阜阳师范大学教授、《阜阳师范大学学报（社会科学版）》“修辞学论坛”主持人）

3）束定芳（上海外国语大学教授、《外国语》主编）

4）王军（苏州大学教授、Language and Semiotic Studies主编）

二、优秀论文奖

本次会议面向四十岁及以下的青年学者设置优秀论文奖，获奖者将颁发“王希杰修辞学奖”，并获得由袁氏奖励金赞助的奖金。申报参评者（包括青年教师、博士后、博士及硕士研究生）需成为江苏省修辞学会会员（填写会员申请表并发送至表中指定邮箱）（附件1）并提交论文全文及参会回执（附件2）。申报截至时间：2026年5月31日。

提交邮箱：soochow2026@126.com

三、时间和地点

会议时间：

2026年7月10日报到，7月11-12开会，7月12离会。

会议地点：

苏州大学（天赐庄校区）

四、会务费

普通参会人员会务费为800元/人，全日制学生凭学生证减半。用餐由组委会统一安排，住宿与往返交通费用自理。

五、联系方式

会务邮箱：soochow2026@126.com

请有意参会者将参会回执（见附件）于2026年5月31日前通过电子邮件发送至会务邮箱。论文摘要经专家评审合格后，会务组将发出正式邀请函。

江苏省修辞学会
苏州大学外国语学院

2026年4月7日

附件下载

附件1：江苏省修辞学会会员申请表

附件2：参会回执

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

重磅 | 教育部、国家语委规范《机器合成普通话水平测评等级标准及测评大纲》全文（附下载链接）

2026年4月8日 09:02

教育部、国家语委 2026-04-08 09:02 江苏

教育部、国家语委发布两项语言规范，明确机器合成普通话测评标准，全文可在官网下载。

近日，教育部、国家语言文字工作委员会正式发布两项语言文字规范：《机器合成普通话水平测评等级标准及测评大纲》和《人工智能语料库基础术语》，标志着我国在人工智能语音技术与语言规范融合发展方面迈出关键一步。

其中，《机器合成普通话水平测评等级标准及测评大纲》规定了机器合成普通话水平的等级标准和测评大纲，适用于机器合成语音的普通话水平测评，可用于技术研发、产品优化及应用评价。该规范首次从国家规范层面对相关测评体系进行了系统构建，对推动智能语音技术高质量发展具有重要意义。

规范全文现已在教育部官网发布，可通过以下链接获取：

http://www.moe.gov.cn/jyb_sjzl/ziliao/A19/202604/t20260407_1433014.html

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

重磅 | 教育部、国家语委规范《人工智能语料库基础术语》全文（附下载链接）

2026年4月8日 09:02

教育部、国家语委 2026-04-08 09:02 江苏

教育部、国家语委发布语料库术语规范，统一界定概念，全文可在官网下载查阅。

其中，《人工智能语料库基础术语》聚焦语料库领域的基础概念与核心术语，对相关术语的定义、内涵及使用范围进行了系统规范，旨在解决当前语料库建设与应用中术语使用不统一、概念界定不清等问题。该标准面向人工智能语料资源建设与应用需求，构建统一、规范、可复用的术语体系，是语料工程领域的重要基础性规范。

标准全文现已在教育部官网发布，可通过以下链接获取：

http://www.moe.gov.cn/jyb_sjzl/ziliao/A19/202604/t20260407_1433016.html

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

徐永明 | 明代文学文献的数字化、结构化和智能化

2026年4月7日 09:01

徐惠 2026-04-07 09:01 江西

文章围绕明代文学文献，阐述其数字化、结构化与智能化的现状、实践及意义。

转载自《中国韵文学刊》2025年第4期

明代文学文献的数字化、结构化和智能化

徐永明

【作者简介】

徐永明（1967—），男，浙江遂昌人，浙江大学文学院教授，研究方向为明代文学、数字人文。

摘要

明代文学文献的数量在1万种以上，然而影像数字化和文本数字化的工作依然任重道远。在大数据和人工智能时代，文本的结构化和智能化也提上了日程。结构化的数据，可以计量统计、定位查询及可视化呈现，同时，结构化的数据与文本结合，可以进行数据关联，为文本的阅读扫除障碍。AI通用大模型的引入，可以与专业数据结合，提升知识问答的准确率，激活学者的研究成果，而AI创意视频与古代文学的结合，则大大加强了古籍的活化利用，提高了学生学习古代文学的兴趣，促进了传统文化的普及和传播。

关键词：明代；文学文献；数字化；结构化；智能化；AI

在数字化时代，人们常见的文献形态，有纸质文献、金石文献、数字文献等样式。其中数字文献，又有影像数字文献、文本数字文献、结构化数据、智能数据等。基于芯片的数字文献，在算力、算法、模型等的加持下，在我们的学习和生活中，产生了越来越重要的影响。我们的祖先，给我们留下了浩如烟海的历史典籍，如何有计划地将这些典籍数字化、结构化和智能化，是我们这一代乃至几代人的历史使命。下面，笔者就明代文学文献的数字化、结构化和智能化谈点个人的观察和实践。

一明代文学文献的数字化

根据《中国古籍总目·集部》的著录，明代楚辞、别集、总集、词集、诗文评及戏曲的著述有9600余种，如果再加上《中国古籍总目·子部》“小说类”1000余种的著述，则明代文学文献的数量有1万余种。当然，这不是明代文学文献的全部，因为《中国古籍总目》主要是几个大馆的联合目录，不能真正反映明代文学文献的全貌。国家后来启动的“全国古籍普查”项目已告一段落，各馆的古籍登记目录在陆续出版中。古籍普查结果显示，现存古籍总数为20余万种，比《中国古籍总目》的17余万种，多出3万余种。就明代文学文献来说，估计数量会有些增加，但总数应在15000种以内。

根据国家图书馆原馆长张志清的说法，截至2025年，国图网站发布的数字化影像古籍大约有13万部。如以现存20余万种古籍平均3个版本计算，则古籍的实体总数为60多万部。13万部与60余万部的比例，大约为1/5。具体的影像数字化古籍的查询，可以访问“中国古典文献资源导航系统”（https://www.wenxianxue.cn/top.html?type=art），这个平台汇集了全球几乎所有图书馆、出版社、公司及个人的古籍影像数据库网址，分门别类，可以自由切换摆渡。此外，平台的建设者唐宸副教授还建立了“全球汉籍影像开放集成系统”，挂在首页。该系统提供书名和作者的一键式查询，其结果可以直接登录浏览，为学者的研究提供了极大的便利。

明代文学文献的文本数字化，在智能的OCR软件出来之前，主要是一些公司提供的产品，如北京爱如生数字化技术研究中心制作的“中国基本古籍库”软件有明别集785种，香港迪志文化出版有限公司制作的文渊阁“四库全书”有明别集239种。北京鼎秀科技有限公司开发的“鼎秀”数据库有明别集636种。由于机器学习和人工智能的出现，古籍版刻体字识别的瓶颈被突破，书同文、阿里、古联、如是、龙泉寺、汉王、字节跳动等公司和机构，纷纷推出了各自训练的古籍智能OCR软件，准确率均在95%以上。于是，古籍的文本数字化进入了快车道。按照现在的算力，如开足马力，13万种图像古籍，可以在短短的几年内文本数字化。不过，再智能的OCR软件，也不可能做到100%的准确率。人工校对，依然需要投入大量的人力和财力，不是短时间内能够完成的。

在智能的OCR软件出现的同时，也出现了智能的古籍标点软件，其准确率也达到了95%以上，一些高校和大公司都有自己开发的古籍标点软件。由于智能的OCR软件、智能的标点软件，加上众包技术的出现，古籍的整理，开始了规模化和工程化作业的模式。如文旅部自2024年开始，每年投入近1.5亿元给各省公共图书馆进行古籍数字化（影像和文本数字化）。图书馆作为收藏单位，本身没有能力承担古籍影像数字化和文本数字化的项目，于是采取招标的方式，由公司投标进行古籍的数字化项目。而国家图书馆作为牵头单位，建立一个中华古籍智慧化服务平台（https://guji.nlc.cn/），各馆数字化的古籍，均提交到这个平台来发布。

除了文旅部下属公共图书馆大规模的古籍数字化外，一些高校和公司利用众包技术，召集高校师生和专业校对机构进行古籍文本数字化的项目。如北京大学王军团队与字节跳动合作，建立了识典古籍平台（https://www.shidianguji.com/）。温州大学侯荣川团队和中华书局古联公司合作，进行明代别集的文本数字化工作。据古联公司总编辑朱翠萍介绍，明代别集的文本数字化，目前已完成600余种。浙江大学徐永明团队建立了“智慧古籍平台”（https://csab.zju.edu.cn），主要也是以整理明代别集为主。与前两者不同的是，该平台更多地侧重智能的呈现和利用。如文本要进行标点和审核，内容要进行标引和标注，人物有行迹图、世系图和社会关系图，大模型可以对文本进行翻译和赏析等（详见下文介绍）。目前已发布200余部明别集数据。

从上述的分析来看，明代文学文献的影像数字化虽然距离全部完成还有较长的路要走，但随着国家古籍数字化专项资金的持续投入，我们有信心看到，前方的终点会变得越来越清晰。明代文学文献的文本数字化，情况有些复杂，因为影像有版刻字体，有草书、行书等手写字体。如果是版刻字体，那有多少影像，就可以几乎同时得到多少未经校对的文本。不要标点的校对，可能需要一代或两代人的努力才能完成；高质量标点的校对，那可能需要数代人的努力才能完成。

二 明代文学文献的结构化

所谓结构化，就是将数据以表格的方式组织和呈现。表格，小的有Excel、Access,大的，可以是SQL Server、MySQL、Oracle等，甚至可以是标记过的text 文本。与非结构化的数据相比，结构化数据有以下几大好处。一是可以计量统计。如我们已经有了《全宋文》作家分字段的数据表，那么，我们可以利用表格中的函数（如数据透视）一键统计出各省或各县作家的人数。二是可以批量匹配。如果我们手头有两张表，一张是人物著作表，一张是人物籍贯表，那么，利用表格中的函数（如VLookup）可以生成一张带有籍贯的人物著作表。三是可以可视化。如可以将统计的结果生成柱状图、饼状图。四是可以进行空间分析。如通过不同时代的人物籍贯表，可以分析人物的分布情况及版图的变化情况。五是可以进行社会网络分析。如著录了亲属关系和社会关系的表格，就可以利用Pajk、Gephi等软件进行可视化呈现，从边和点对人物的交往亲疏和影响力进行分析。六是结构化的数据可以为语言大模型提供数据增强检索和分析，提高问答的准确率。

结构化数据的种类很多，如有人物、地名、名物、时间、职官、科举、图像、书目、篇目等。在数字技术出现以前，人们其实已经做了很多有关结构化的工作，我们可以称之为准结构化文献。如正史中的人物传记、地理志书、各类辞典等，都是带有结构化特征的文献。就明代来说，准结构化的数据，人物类如《明史》中的人物列传、《国朝献征录》（焦竑）、《明人传记资料索引》、《明人室名别称字号索引》、《明遗民传记索引》、《中国文学家大辞典》（李时人，明代卷）、《明代名人传》（英文）、《明人碑传索引》（汤志波，十四册）等；地理类如《明史》中的地理志、《大明一统志》、《天下水陆路程》（明黄汴）、《客商一览醒迷》（明李晋德）、《大明一统志》等；职官类如《明史·职官志》、《明代职官年表》、《明代职官中英辞典》（张颖等）；科举类如《明清进士录》、《明清进士题名碑录索引》、《明代登科总录》（二十五册）等；年代类如《明人年谱知见录》（李佳琪，志传）、各类明人年谱等；书目类如《千顷堂书目》、《明史·艺文志》、《明代传奇全目》（傅惜华）、《明代杂剧全目》（傅惜华）、《明别集版本志》、《明别集整理总目》（汤志波）、《明人别集经眼叙录》（徐永明、赵素文）、《台湾藏稀见明别集总目提要》（李玉宝）等；篇目类如《20世纪中国古代文学研究文献总目·明代论文卷》（曹鑫）等。

然而，准结构化数据毕竟不等于数据库。如就人物辞典来说，其主要的构成是人名的词条加上小传。而人物数据库，则有人名、字号、朝代、生卒年、籍贯、经纬度、仕履、著述、亲属关系、社会关系等不同字段的信息，而且，一个人物数据库，可以是各种不同表格组合构成的关系型数据库。譬如，哈佛大学与北京大学、台湾“中央研究院”联合开发的中国历代人物传记资料库（CBDB）就是一个关系型数据库，该数据库迄今已收入了65万人物，其中明代人物为222194人（截至2025年6月11日）[该数据为CBDB项目经理王宏甦提供。]。

图1中国历代人物传记资料库人物数据统计表

CBDB数据库，可以实现过去准结构化辞典不能实现的功能。如统计女性的死亡年龄、中进士或中举人的年龄、男女的婚配年龄等。因为是对群体人物的研究，故有所谓“群体传记学”之说。数据库可以多条件查询人物信息，如某地某时的官员任职情况。这个在纸本时代，即便有工具书，也是不易查找的。此外，CBDB的人物籍贯地理信息、亲属关系、社会关系信息，在查出结果后，可以保存为地理信息或社会关系的格式，用专门的软件进行可视化的呈现和分析。

现代意义的结构化数据，除了CBDB外，与明代有关的尚有哈佛大学与复旦大学史地所合作建的“中国地理信息平台”（CHGIS）、哈佛大学的“世界地图平台”（Worldmap）、浙江大学的“学术地图发布平台”(http://amap.zju.edu.cn) 、浙江大学建立的“智慧古籍平台”（https://csab.zju.edu.cn）发布的数据。CHGIS是数字人文的基础设施平台，里面包含了历代地名所属的行政区域、地名的经纬度等信息。Worldmap是应用地图，发布过“明代卫所分布”及“明代驿站路线图”等。

浙江大学的“学术地图发布平台”发布的地图有两类，一是人物行迹图，一是分布图。就明代的人物行迹来说，目前发布的主要有张以宁、危素、宋濂、陶宗仪、戴良、刘基、杨基、张羽、徐贲、胡奎、高启、瞿佑、杨士奇、解缙、于谦、沈周、陈献章、李东阳、王鏊、杨一清、祝允明、湛若水、王九思、唐寅、文徵明、王阳明、刘节、李梦阳、王廷相、康海、边贡、陆深、严嵩、夏言、何景明、杨慎、李濂、木公、李元阳、李开先、徐阶、吴承恩、归有光、唐顺之、王慎中、冯惟敏、茅坤、李攀龙、海瑞、沈明臣、梁辰鱼、徐渭、吴国伦、张居正、汪道昆、王世贞、李贽、沈一贯、焦竑、顾大典、屠隆、孙鑛、陈与郊、梅鼎祚、汤显祖、臧懋循、胡应麟、沈璟、冯琦、叶向高、袁宗道、徐复祚、徐光启、叶宪祖、谢肇淛、袁宏道、袁中道、钟惺、曹学佺、冯梦龙、冯梦熊、王思任、刘宗周、凌濛初、钱谦益、文震亨、苍雪、叶绍袁、徐霞客、担当、吴炳、张岱、张溥、陈子龙等人。有关明代的分布图，有《中国文学家大辞典》（明代卷）分布图、明代布政使司任职名单定位查询、明代山东散曲家地域分布图等。

浙江大学建立的“智慧古籍平台”目前主要以整理明代文学文献为主。平台发布的著述，不仅篇目独立成结构化的数据，进行了文体分类，而且对文章的地域关系进行了标注，形成可按行政区查询的结构化数据。此外，人物还有世系图、社会关系图。世系图主要的人物有杨维祯（1296）[括号内为人物生年，下同。]、张以宁（1301）、宋濂（1310）、刘基（1311）、章溢（1314）、胡深（1314）、陶宗仪（1320）、王袆（1322）、高启（1336）、方孝孺（1357）、杨士奇（1365）、夏原吉（1366）、胡广（1370）、薛瑄（1389）、商辂（1414）、姚夔（大章）（1415）、谢一夔（1425）、刘健（1433）、李东阳（1447）、杨廷和（1459）、席书（1461）、唐寅（1470）、文徵明（1470）、王守仁（1472）、康海（1475）、徐祯卿（1479）、严嵩（1480）、夏言（1482）、何景明（1483）、杨慎（1488）、韩邦靖（1488）、许宗鲁（1490）、归有光（1507）、海瑞（1514）、李攀龙（1514）、徐中行（1517）、梁辰鱼（1520）、徐渭（1521）、袁尊尼（1524）、张居正（1525）、王世贞（1526）、王穉登（1535）、焦竑（1540）、孙鑛（1542）、屠隆（1543）、邹迪光（1550）、汤显祖（1550）、胡应麟（1551）、袁宏道（1568）、冯梦龙（1574）、钟惺（1574）、钱谦益（1582）、叶绍袁（1589）等。

社会关系图主要有宋濂（1310）、刘基（1311）、陶宗仪（1320）、王袆（1322）、方孝孺（1357）、虞谦（1366）、商辂（1414）、李东阳（1447）、王鏊（1450）、杨一清（1454）、祝允明（1461）、文徵明（1470）、李梦阳（1473）、顾璘（1476）、张含（1479）、徐祯卿（1479）、严嵩（1480）、何景明（1483）、韩邦靖（1488）、苏祐（1493）、李开先（1502）、田汝成（1502）、王慎中（1509）、李攀龙（1514）、徐中行（1517）、梁辰鱼（1520）、张居正（1525）、汪道昆（1526）、王世贞（1526）、李贽（1527）、戚继光（1528）、杨时乔（1531）、孙鑛（1542）、屠隆（1543）、臧懋循（1550）、汤显祖（1550）、董其昌（1555）、叶向高（1559）、冯梦龙（1574）、钟惺（1574）、凌濛初（1580）、钱谦益(1582)、倪元璐（1593）、宋征舆(1617)、董说（1620）等。

从目前结构化数据来看，明代的数据主要还集中在地名、人名方面。从今后的发展来看，要建设明代结构化数据的任务还很重。如人物的行迹数据，现在主要还局限于比较有名望的人物，而二、三流的人物行迹数据，还有待今后来建设。此外，明代人物的日记、年谱，也有待结构化。就地名来说，CHGIS主要还是省府县三级的数据，大量地方志中县级以下的地名需要结构化。就图像来说，明代文献中的图像标注还没有真正启动。

三明代文学文献的智能化

数字技术的发展，为明代文学文献的智能化提供了可能。那么，现代的数字技术能使明代文学文献达到怎样程度的智能呢？能为我们的学术研究提供怎样的便利呢？根据笔者的认知和实践，数字技术可以在以下几个方面使文献智能化。

其一，数据生产的智能化。智能OCR、智能标点、智能标引使古籍的整理时间大大缩短，极大地提高了古籍整理的效率，并大幅度降低整理的成本。可以说，古籍整理90%以上的工作可以让机器替代，人工只要负责10%的工作量。此外，线上众包技术让众多的文史爱好者参与其中，分工合作，使得纸本时代单一作业的模式变为集体作业的模式，改变了传统古籍整理的方式，建立了全新的古籍整理范式。目前，古联科技公司、“识典古籍平台”、“智慧古籍平台”均采用了线上众包作业的模式。由于是众包作业，每个人完成的工作量都有记录，且有排行榜，有利于结算酬劳。如果有国家的经费支持，可以解决文科生的就业问题。

其二，数据呈现的智能化。就“智慧古籍平台”来说，发布在前台的文本，由于经过标引，文本数据与后台的工具书产生了关联。这样，文本的地名可以定位，人名、词语、职官、时间等实体均有工具书的关联和解释。一般的阅读障碍就基本消除了。平台引入语言大模型后，古诗文还可以今译、英译，还可以赏析。这对于传统文化的传播，起到了极大的推广作用。此外，人物的行迹图、世系图和社会关系图，又加深了读者对人物的了解。兹就地名的定位举一例说明。刘基曾写过一首《稽句岭》的诗。诗云：“白日隐岩嶅，千崖气势豪。溪流婺女阔，山入少微高。危石天敧侧，长风谷怒号。干戈方自此，行役敢辞劳！”^{［1］（卷八）}刘基的这首诗，描写的是他返乡或奉命赴任途中，经由此岭，触景生情，描绘了稽勾岭一带险峻壮丽的自然山川，抒发了诗人身处乱世、肩负使命的豪情与责任感。按：稽句岭，即稽勾岭，今名金钩岭，是丽水至武义稽勾古道上的一个要冲，在武义境内。《栝苍汇纪》：“由寿玄而北百里为稽勾山岭，曰稽勾岭，崔嵬盘绕亘二十余里。”^{［2］（卷七）}由于智慧古籍平台对稽句岭作了标引，在后台添加了经纬度，因此，阅读此诗时，就可以精确定位。这样，对诗歌的理解就有了地理空间的认知。

其三，数据问答的智能化。大语言模型的出现，使得人机交互成为人们学习和工作不可或缺的工具。浙江大学文学院数字人文中心与杭州云四库科技有限公司联合开发了文史垂类模型——云四库智能问答系统(https://www.aiyskqa.cn) 。该系统基于杭州深度求索公司的DeepSeek R1、DeepSeek V3和阿里通义千问的Qwen72B、Qwen-QwQ、 Qwen3-235B、Qwen Plus 、Qwen 2.5-max等通用大模型为底座进行数据增强。目前已投喂古籍、研究著作及论文共二百多亿字的数据，能较好地回答各类文史问题。譬如，我们问一个“杨维祯为什么被称为文妖”的问题，机器给予了如下的回答：

杨维祯被称为“文妖”，这一称号源于其独特的文学风格与当时主流文学观念之间的冲突。以下从多个角度对这一称号的由来及意义进行分析：

一、杨维祯文学风格的“怪异”与“奇谲”

杨维祯（号铁崖）是元末明初的重要文学家，他所创作的“铁崖体”诗文以奇诡、放纵、夸张、浪漫为主要特色。他不拘泥于传统格律，敢于突破形式的束缚，融合古乐府、民歌、戏曲等元素，形成了极具个性的风格。这种风格在内容上也表现出对个性自由的追求，甚至在某些诗作中流露出对传统道德观念的反叛。例如，他的一些艳情诗大胆描写情感与欲望，这种表现方式在当时理学盛行、讲究“雅正”的语境中显得格格不入。

二、王彝的《文妖》批评

明代文人王彝在其《文妖》一文中，对杨维祯的文风进行了严厉批评。他将杨维祯比作“狐妖”，指出其文章“以淫辞怪语，裂仁义，反名实，浊乱先圣之道”，并批评其文风“柔曼倾衍，黛绿朱白”，具有“妖媚惑众”的力量。王彝认为，这种文风不仅偏离了儒家正统思想，还具有蛊惑人心、影响青年的危险性，因此称之为“文妖”。

三、“文妖”称号的多重含义

“文妖”这一称号并非仅指杨维祯文风的怪诞或形式上的奇诡，更深层地反映了其文学思想与当时主流意识形态之间的冲突。在王彝等理学派文人看来，杨维祯的创作不仅形式上不守规矩，内容上也挑战了儒家伦理，是对“文以载道”传统观念的背离。因此，“文妖”不仅是对其风格的形容，更是一种道德与思想上的批判。

四、后世对“文妖”称号的再评价

尽管杨维祯在当时受到如王彝等人的严厉批评，但后世学者如胡应麟等人却对其才情给予了高度评价。胡应麟认为杨维祯的艳情诗“才情缥缈，独步当代”，其诗风“超异神俊，追踪谪仙”，甚至将其与李白、温庭筠、李贺等古代名家相提并论。这说明，随着时代观念的变迁，“文妖”这一称号逐渐被赋予了另一种解读——它成为对杨维祯文学个性与创新精神的肯定。

五、结语

综上所述，杨维祯之所以被称为“文妖”，主要源于其文学风格的奇谲怪异、内容上的个性张扬，以及与当时儒家正统文学观念的冲突。这一称号既包含了对其文学创新的否定性批评，也折射出当时文化语境中对“异端”文学的排斥。然而，从文学史的发展来看，这种“妖”的标签恰恰体现了杨维祯作为一位文学革新者的独特价值。

机器注明了大模型使用了Qwen-72B，并注明了文献来源，分别有《古代文学理论研究丛刊》（第二辑）、邱江宁撰《元代文人群体的地理分布与文学格局研究》、孙小力《杨维祯在嘉定的活动及其影响考论》、《元明清诗鉴赏辞典》、廖可斌《压抑与躁动——明代文学论集》、《明代文学思潮史》、《明代文学复古运动》。应该说，这样的回答基本是符合实际的。

上述的例子，仅仅是云四库一个应用案例。实际上，云四库的功能远不止于止，限于篇幅，此处不再展开。“智慧古籍平台”接入了云四库智能问答系统，因此，不仅“智慧古籍平台”上的诗文能今译、英译及赏析，而且还随时可以跳转到云四库智能问答系统进行人机交互问答，这样的便利是纸本时代不可想象的。

其四，AI创意与古籍的活化利用。我们除了利用语言大模型进行知识的智能问答外，还可以利用大模型文生图、文生视频的功能进行古籍AI视频创作。这是一个崭新的天地，能够极大地促进古籍的活化利用，调动学生学习古文的积极性。大语言模型刚推出的时候，央视就推出国内首部AI全流程微短剧《中国神话》。智慧古籍平台发布了多个刘基《郁离子》的AI创意视频，附在相应的文本之后。

图2 用AI制作的相马图

千里马绀鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马绀羽鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马规执政 https://abm.zju.edu.cn/share.html?id=h9Ax4reHR&type=vod

千里马良桐 https://abm.zju.edu.cn/share.html?id=M4ziI9eHR&type=vod

千里马乱几 https://abm.zju.edu.cn/share.html?id=FFPWS96Hg&type=vod

千里马戚之次且 https://abm.zju.edu.cn/share.html?id=SddVSreNg&type=vod

千里马巫鬼 https://abm.zju.edu.cn/share.html?id=WJKIS96NR&type=vod

千里马献马 https://abm.zju.edu.cn/share.html?id=MZzHS96Hg&type=vod

千里马燕王好乌 https://abm.zju.edu.cn/share.html?id=za9NS96Ng&type=vod

千里马养枭 https://abm.zju.edu.cn/share.html?id=mK1DI9eHR&type=vod

千里马忧时 https://abm.zju.edu.cn/share.html?id=BkAOS96NR&type=vod

鲁般萤与烛 https://abm.zju.edu.cn/share.html?id=4eeBN9eHg&type=vod

鲁般东都旱 https://abm.zju.edu.cn/share.html?id=TYNLN9eHg&type=vod

鲁般 https://abm.zju.edu.cn/share.html?id=RCALHr6HR&type=vod

鲁般九尾狐 https://abm.zju.edu.cn/share.html?id=ce_LNreHR&type=vod

我们还可以将这一应用进行广泛推广。譬如，明代诗文、小说、戏曲均可以用AI进行短视频的创作，从而激发学生学习古代文学的兴趣，推动古代文化的普及和传播。

需要指出的是，不论哪一款大语言模型，DeepSeek也好，通义千问也好，都不能解决古文深度语义交互的问题。譬如，我们要问机器关于明代乐府诗的成就和特点，机器只会根据现在的研究材料来回答这个问题，而不能从明代作家所有原典文献中去查询分析来回答。假如机器能根据提供的古书，通过检索和分析，回答提问者任何问题，那么，我们可以说，古籍的智能化真的是到达了一种理想的状态。

四余论

从上面的叙述中我们可以看到，明代文学文献的数字化、结构化和智能化，是一个漫长且极有意义的系统工程。所谓漫长，是因为明代文学文献的体量过于浩大，即便是先进的技术能帮助解决90%以上的工作量，但依然有大量的工作需要人力来完成，这需要几代人的努力。所谓有意义，一是能提高人们的工作效率，促进学术的研究向纵深的方向发展；二是借助数字技术和优质数据，有利于文化的普及和传播；三是可以激活学者的研究成果，使高冷的学术研究成果走向社会，服务大众；四是发挥数据在人工智能时代的要素作用，使其成为推动社会发展的新质生产力。

参考文献

［1］刘基.诚意伯刘先生文集［M］.明成化六年（1470）戴用、张僖刻本.

［2］熊子臣，何镗.栝苍汇纪［M］//四库全书存目丛书：193册.济南：齐鲁书社，1996.

此文原载于《中国韵文学刊》2025年第4期。

原创内容如需转载，须经本刊编辑部授权。

订阅·投稿·查询

1. 点文章标题下的“中国韵文学刊”进行订阅，或扫码下方二维码订阅，或直接搜微信公共帐号：中国韵文学刊。

2. 投稿网站：https://YWXB.cbpt.cnki.net/

投稿邮箱：yunwenxuekan@163.com

3. 关注后输入关键字可浏览过刊目录及部分文章，如查询2014年第1期，输入“201401”即可浏览。本刊为季刊，一年四期。

《中国韵文学刊》

长按左侧二维码识别即可关注

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

AAAI 2026 论文：从语言神经元视角理解多语言对齐如何增强大模型能力

2026年4月6日 10:50

张世茂 2026-04-06 10:50 江西

分享一篇文章

南大NLP: AAAI 2026 论文：从语言神经元视角理解多语言对齐如何增强大模型能力

南大NLP组2026论文：从语言神经元视角理解多语言对齐如何增强大模型能力

【该工作由南京大学自然语言处理组与微软亚洲研究院合作完成，论文入选AAAI2026Oral。扩展版论文链接：https://arxiv.org/abs/2505.21505，代码：https://github.com/NJUNLP/Language-Neurons-Alignment】

研究动机

大型语言模型在多语言场景下已经展现出较强的整体能力，但由于预训练语料在不同语言之间分布不均衡，高资源语言与低资源语言之间仍存在显著性能差距。鉴于低资源语言的数据本身难以获取、难以支撑额外的大规模预训练，如何在现有模型基础上提升其能力成为实际需求。在这一背景下，多语言对齐（Multilingual Alignment）作为一种更具可操作性的途径，为增强低资源语言的推理表现提供了有效方向。

目前，多语言对齐方法的效果已在多项任务中得到验证，然而一个关键问题始终缺乏系统性解释：多语言对齐为什么有效？它在模型内部究竟改变了哪些结构与表征方式？为回答这一问题，近期研究开始尝试从神经元粒度理解多语言能力来源。现有主流划分通常将与语言相关的神经元分为两类：一类仅在某一种或极少数语言上表现出较高激活，被称为语言特定神经元（language-specific）；另一类在所有语言中均保持较强激活，被视为通用神经元（general）。这一二元框架为分析多语言能力提供了初步结构化视角，但在实际统计中，如图所示，仍存在无法被准确归类的激活模式：有相当数量的神经元会在多种语言上频繁激活，却并未在所有语言中保持一致作用：在现有体系下，它们通常被笼统归入语言特定，但其跨多语言的激活特征又与真正意义上的语言特定神经元并不一致。这一现象提示，要深入理解多语言对齐的内部机制，仅依赖“语言特定—通用”的二元划分可能不足，亟需更精细的描述与分析框架。

图1：某神经元在不同语言上激活概率的示例

方法：语言神经元的三元分类法与识别算法

2.1 三类语言神经元的划分与定义

结合激活概率统计，我们重新整理并扩展了语言神经元的定义体系：

语言特定神经元：只在某一种语言上具有高激活概率，对其他语言激活很弱。它们主要承担该语言特有的输入 / 输出形式的编码与解码。
语言相关神经元：在多种但非全部语言中保持高激活，用来刻画跨若干语言共享的结构与模式。(这是重点刻画的“中间层次”类别，也是以往工作容易混入语言特定的部分)
通用神经元：在所有语言上都具有较高激活，更多与任务相关的通用知识和推理模式有关，而不是绑定于某一种语言。

2.2 神经元识别算法

仅根据在哪些语言上出现激活难以准确判断神经元的功能，我们更关心其是否真实参与多语言推理过程，而非在与任务无关的文本上偶然被激活。为此，我们在语言维度上引入两个核心指标：

（1）激活概率分布的熵: 用于衡量神经元在不同语言间的激活偏好，即语言特异性。

（2）跨语言的最大激活概率: 用于衡量神经元在至少某些语言上是否具有足够高的激活强度，即有效性。

我们将两项指标整合为统一评分体系，对所有神经元进行排序：

从而同时过滤掉激活弱、语言偏好不明显的神经元，以及“看似特化但实际不参与推理”的神经元。

在此基础上，我们取语言数量 N=10，根据神经元激活概率超过阈值的语言数量完成最终分类：

仅在 1 种语言上高激活 → 语言特定
在 2–9 种语言上高激活 → 语言相关
在全部 10 种语言上高激活 → 通用

需要强调的是，我们在多语言数学推理数据集（MGSM、MSVAMP）的模型回答生成过程中统计激活，而非在一般多语言文本上，确保识别到的神经元确实与多语言推理能力相关。

实验设置

为在可控成本下系统分析多语言对齐前后的神经元变化，我们选择两种 7B 规模的开源数学推理模型作为研究对象：

MistralMathOctopus-7B
MetaMathOctopus-7B

两者均在多步数学推理数据上进行过微调，适合作为研究多语言推理能力及其内部结构变化的基座模型。

在任务设置方面，我们使用两个具有代表性的多语言数学推理基准：

MGSM：经典的多语言数学推理评测集，用于主要实验结果以及神经元激活统计；
MSVAMP：分布与 MGSM 不同的 out-of-domain 数据集，用于验证分析结论的泛化能力。

覆盖十种语言：英语（en）、中文（zh）、俄语（ru）、德语（de）、法语（fr）、西班牙语（es）、日语（ja）、斯瓦希里语（sw）、泰语（th）和孟加拉语（bn）。其中英语作为中枢语言，用于构造对齐信号。

在对齐方法上，我们采用 MAPO 框架 (Multilingual-Alignment-as-Preference Optimization) 中基于 DPO 的变体来实现多语言对齐，具体包括：

利用多语言算术推理数据构造偏好对；
使用多语言翻译模型将非英语回答翻译回英语，并计算其与英语回答之间的一致性；
将该一致性作为偏好优化中的奖励信号，对模型进行对齐训练。

对齐前后，我们分别统计模型在多语言推理生成过程中的神经元激活概率分布，比较三类神经元对齐前后的数量变化及其在不同层的分布差异，以分析对齐对模型内部结构的影响。

主要发现：多语言对齐如何改变模型内部结构

4.1 神经元失活实验

基于前述识别方法，我们在 base 模型中识别三类神经元，并通过 Accuracy 和 Perplexity 消融实验检验它们在多语言推理中的作用，如图所示：

图2：失活基于MistralMathOctopus及MGSM得到的不同种类神经元后的模型准确率

图3：失活基于MistralMathOctopus及MGSM得到的不同种类神经元后的模型困惑度

禁用某语言的语言特定神经元会降低该语言的回答准确率，并提升该语言 PPL，表明模型在该语言上依赖其语言特定神经元；
在此基础上，若进一步禁用该语言的语言相关神经元（即同时禁用 language-specific 与 language-related），模型性能进一步下降，且 PPL 上升幅度更大，说明语言相关神经元在多语言推理中同样起到关键作用；
禁用某语言的语言相关神经元对其他语言的性能影响相对较小，表明这些神经元在多个语言之间呈“分散共享”结构，而非被单一语言强依赖；
当同时禁用某语言对应的语言特定、语言相关及通用神经元时，不仅该语言性能显著下降，其他语言性能亦受到明显影响，说明通用神经元承载跨语言共享的推理能力。

这些结果表明：某语言的推理能力同时依赖语言特定与语言相关神经元，而语言相关神经元在多语言之间形成“局部共享”的支撑结构，是连接多种语言的重要桥梁。

4.2 四阶段多语言推理流程

在识别出语言特定、语言相关和通用三类神经元后，我们进一步分析了它们在模型各层的数量分布情况。结果显示，这三类神经元在深度方向上呈现出结构化的变化模式，如图所示，据此可将大模型的多语言推理过程概括为以下四个阶段：

图4：不同种类神经元的层级别分布

（1）多语言理解

在模型的底部若干层中，语言特定与语言相关神经元数量同时处于较高水平，而通用神经元相对较少。该阶段主要负责将不同语言的输入映射到统一或相近的语义空间，为后续的语言无关推理奠定基础。

（2）共享语义空间推理

在中间层区域，通用神经元占据主要位置，而语言特定与语言相关神经元的数量显著减少。模型在此阶段主要执行与语言无关的推理与计算，不同语言共用相同的推理结构。

（3）多语言输出空间转换

接近输出端的若干层中，语言特定与语言相关神经元数量再次明显上升，而通用神经元数量下降至较低水平。该阶段的功能是将共享语义表示重新投射到各目标语言的输出空间中，恢复语言间的结构差异。

（4）词汇空间输出

在最终输出层，三类神经元的数量分布再次出现特征性变化：

语言特定神经元在该层达到数量峰值，强调其在目标语言词汇选择中的重要作用；
语言相关神经元数量则呈下降趋势，与上一阶段形成对比，表明跨语言共享结构在词汇级生成中的作用相对减弱；
通用神经元数量重新回升，与输入层的分布较为一致，可能与模型依赖共享词表和通用知识来完成最终输出有关。

这一四阶段框架体现了不同类型神经元在模型内部的分层组织关系，相比现有对多语言推理的粗粒度描述，更系统地揭示了模型内部表征从输入到最终输出的转换机制。

4.3 多语言对齐的影响

在明确 base 模型的层级结构后，我们进一步比较了对齐前后三类神经元在不同层次的数量变化，如图所示。

图5：对齐后不同种类神经元的层级别变化

分析显示，多语言对齐并不仅是对输出分布的调整，而是在模型内部引发了系统性的结构重组，主要体现在以下方面：

（1）输入阶段：更依赖语言敏感结构

在多语言理解阶段，语言特定与语言相关神经元数量均有所上升，而通用神经元数量相应下降。这表明模型在输入侧更依赖语言相关结构来建立跨语言间的映射，为后续推理的对齐提供基础。

（2）输出阶段：从“单语言特化”转向“跨语言共享”

在多语言输出空间转换阶段，语言相关神经元的数量显著增加，而语言特定神经元有所减少。这一反向变化说明，对齐后的模型在生成目标语言输出时，会更多利用跨语言共享的结构，而减少对高度语言特化神经元的依赖。

（3）整体趋势：由“单语言依赖”转向“多语言共享”

跨层统计如图所示，这进一步显示对齐后：

图6：对齐后被不同数量语言（N）所共享的神经元的数量变化

语言特定神经元整体减少，
语言相关神经元显著增加，
通用神经元数量也呈现上升趋势。

结合多语言激活模式进一步观察可以发现：部分原本仅在少数语言中活跃的神经元，在对齐后会在更多语言间被共同激活，其语言覆盖范围呈扩大趋势。这一现象在不同模型与数据集上均具有一定一致性，提示多语言对齐可能使模型更倾向于使用在多语言间具有更高共享度的神经元结构。

4.4 自发多语言对齐现象

此前研究提出了自发多语言对齐（Spontaneous Multilingual Alignment）现象：即使对齐训练仅涉及少数语言，其他未参与对齐的语言也会同步受益。本文在 MAPO 框架下验证了这一现象：

表1：MistralMathOctopus对齐前后模型在MGSM上的准确率。“X/Y ⇒ T“表示多语言对齐中语言X和Y向语言T进行对齐

例如仅在中文与德语上执行对齐训练（zh/de ⇒ en），模型在 MGSM 上的平均准确率由 57.8 提升至 63.6；
多种未直接参与对齐的语言（如西班牙语、法语、泰语等）也出现了不同程度的性能提升。

为了理解这一现象背后的内部机制，我们进一步统计了对齐前后，不同语言对应的神经元数量变化。结果显示：

表2：自发多语言对齐实验中训练和未经训练语言上不同种类神经元数量变化的平均结果

对齐语言中：语言特定神经元数量减少，而语言相关神经元数量显著上升；
未对齐语言中：同样观察到语言相关神经元数量上升的趋势，尽管幅度较小。

这一结果说明，对齐训练不仅改变了对齐语言内部的神经元参与模式，也在一定程度上影响了其他语言的神经元结构：与多种语言共同相关的语言相关神经元在更多语言间得到使用，其共享范围有所扩大。

因此，自发多语言对齐不仅体现在性能提升上，也在神经元层面呈现出一致的结构变化，为这一现象提供了进一步的证据支持。

总结

本文从神经元粒度系统分析了多语言对齐对大型语言模型内部结构的影响。通过提出更精细的三元神经元分类体系，并构建结合特异性与有效性的统一识别方法，我们揭示了语言相关神经元在多语言能力中的关键作用，并据此刻画了模型在多语言推理中经历的四阶段内部流程。进一步的对齐前后对比显示，多语言对齐会重塑模型内部的神经元参与模式，使模型更倾向于依赖在多种语言间共享的表征结构。这一视角同时为“自发多语言对齐”等现象提供了神经元层面的支持。

总体来看，本文为理解多语言对齐的内部机制提供了更具结构化与可验证性的解释路径，也为后续改进多语言模型的训练方法和对齐策略提供了新的分析依据。

参考文献

[1] She, S.; Zou, W.; Huang, S.; Zhu, W.; Liu, X.; Geng, X.; and Chen, J. 2024. MAPO: Advancing Multilingual Reasoning through Multilingual-Alignment-as-Preference Optimization. In Ku, L.-W.; Martins, A.; and Srikumar, V., eds., Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 10015–10027. Bangkok, Thailand: Association for Computational Linguistics.

[2] Tang, T.; Luo, W.; Huang, H.; Zhang, D.; Wang, X.; Zhao, X.; Wei, F.; and Wen, J.-R. 2024. Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models. In Ku, L.-W.; Martins, A.; and Srikumar, V., eds., Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 5701–5715. Bangkok, Thailand: Association for Computational Linguistics.

[3] Wendler, C.; Veselovsky, V.; Monea, G.; and West, R. 2024. Do llamas work in english? on the latent language of multilingual transformers. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 15366–15394.

[4] Zhao, Y.; Zhang, W.; Chen, G.; Kawaguchi, K.; and Bing, L. 2024b. How do large language models handle multilingualism? arXiv preprint arXiv:2402.18815.

[5] Zhang, S.; Gao, C.; Zhu, W.; Chen, J.; Huang, X.; Han, X.; Feng, J.; Deng, C.; and Huang, S. 2024. Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners. In Al-Onaizan, Y.; Bansal, M.; and Chen, Y.-N., eds., Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 8037–8051. Miami, Florida, USA: Association for Computational Linguistics.

[6] Huang, H.; Tang, T.; Zhang, D.; Zhao, W. X.; Song, T.; Xia, Y.; and Wei, F. 2023. Not all languages are created equal in llms: Improving multilingual capability by cross-lingual-thought prompting. arXiv preprint arXiv:2305.07004.

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

在典籍中看文明——访中国国家版本馆党委书记、馆长刘成勇

2026年4月5日 09:01

2026-04-05 09:01 江西

分享一篇文章。

中国新闻出版广电报: 在典籍中看文明——访中国国家版本馆党委书记、馆长刘成勇

在文化遗产保护传承日益受到重视的当下，如何理解典籍版本在文明传承中的核心作用？“代代相传的典籍版本见证了世界上唯一没有中断的文明，可以说版本蕴藏着中华民族的精神基因和文化根脉，它是记录历史、见证文明的金种子。”中国国家版本馆党委书记、馆长刘成勇近日在接受《中国新闻出版广电报》记者采访时说，作为国家版本资源总库和中华文化种子基因库，中国国家版本馆肩负着赓续中华文脉、坚定文化自信、展示大国形象、推动文明对话的历史使命。他从历代传世版本谈起，分享了对文化遗产里的中国的深刻思考。

《中国新闻出版广电报》：您怎么看古籍与大众日常生活的联系以及近年持续升温的文博热？

刘成勇：许多人觉得古籍遥不可及，其实不然，古籍与今天大众生活的关联，是“日用而不觉”的。例如，在古籍雕印中有一种常见的“宋体字”，它是在唐楷的基础上，经过宋元明的演变逐渐形成，笔画劲挺峻峭，结构匀称整齐，端庄典雅，适合雕刻，便于阅读，利于传播。到今天，我们仍然在广泛使用这种字体。不论是图书报刊、公文函件、合同协议，还是证件招牌、标题字幕等等，都有宋体字的身影。可以说，古籍中的宋体字已经成为中国人的文化符号之一，在社会生活中一直发挥着巨大的作用，具有重要的实用价值和审美功能。从这个层面上说，古籍就在我们身边，从未走远。

现在有许多人热衷到各个博物馆打卡、集章，包括中国国家版本馆每天都有十几个团来参观，旺季时团队预约甚至排到一两个月之后。我觉得这是一个非常好的事情，令人十分欣喜，这背后，折射出的正是公众日益增强的文化自信与对中华优秀传统文化的由衷热爱。

《中国新闻出版广电报》：相较于各大博物馆，中国国家版本馆有定位与藏品的特殊性，请简要介绍版本馆及藏品对大众了解中华文化的作用，参观前可以做哪些准备？

刘成勇：中国国家版本馆是文明大国建设的基础工程，是功在当代、利在千秋的标志性文化工程，集图书馆、博物馆、档案馆、美术馆等功能形态于一体，全面履行国家版本资源规划协调、普查征集、典藏展示、研究交流和宣传使用的重要职能。在这里，读者可以从中华版本中获得精神滋养，直观感悟中华文明的浩瀚璀璨和中华民族生生不息的精神脉络。

在参观前，可以通过国家版本馆官网或媒体报道提前了解国家版本馆“藏之名山、传之后世”的存藏理念和建设意义。重点关注“明星藏品”，提前熟悉它们的背景知识，比如武则天组织抄写的唐代写本《妙法莲华经》，了解唐代的“三审三校”制度；宋拓孤本《西楼苏帖》，感受苏轼书法的魅力和宋代文人的精神世界。

《中国新闻出版广电报》：如果观众参观后有进一步了解的兴趣，您有什么建议？

刘成勇：若参观之后仍意犹未尽，可从三个方面加深了解。一是阅读书籍，建议从通识性、普及性、趣味性的书籍入手，推荐《馆长眼中的镇馆之宝》，这本书从经济、科技、文明传承视角讲述文物背后的精彩故事，值得一读。若想深入研究，可以订阅《中华版本学刊》，这是新时代版本学领域创刊的第一本学术期刊，方便及时获取版本研究的新动态与新方法。二是中国国家版本馆设有研学项目，精心设计了参观路线，沉浸式VR互动、体验雕版印刷乐趣、创意甲骨文互动，还有宣传画互动屏，每一场研学之旅既有知识厚度，又有互动乐趣。三是参加“文瀚雅集”等交流活动，在“版本展示+晒书鉴赏+座谈交流”中，了解版本征集、版本收藏、研究出版、文创开发等知识。

《中国新闻出版广电报》：您在全国两会上提到正在建设中的中华典籍线上展示平台，可否描绘一下平台建成后的数字阅读体验？

刘成勇：中华典籍线上展示平台是中国国家版本馆建设的综合性数字资源展示平台，实现了对珍贵典籍数字化资源保存、展示与服务。目前平台处于建设起步阶段，已上线展示了17万种古籍和近现代文献资源，让原本“藏在深闺”的文化瑰宝走进了公众视野。

未来我们将着力构建“平台+用户”共建共享生态，逐步上线面向社会各界开放的资源入藏共建、规范审核、发布展示专属模块，打通民间珍贵典籍入藏国家版本资源总库的渠道，同时鼓励公众参与典籍研读、知识分享、校勘补充等活动，营造“人人可参与、人人可传播、人人可传承”的文化氛围。

《中国新闻出版广电报》：中国国家版本馆将如何更好地服务“加强文化遗产保护传承”这一要求？

刘成勇：中国国家版本馆致力于赓续中华文脉，构建中华文化种子基因库，把自古以来能收集到的典籍资料收集全、保护好，把世界上唯一没有中断的文明继续传承下去。我们综合运用法定呈缴、捐赠、采购、寄存、数字化等多种方式，广泛征集中华文明典籍资料，包括中华古籍、甲骨简牍、革命文献、宗教文献、碑帖拓片、方志家谱、雕版印章、档案文书、影音影像、现代出版物、数字版本等，截至目前共收藏实物版本3400余万册/件，数字文献36亿页。

此外，《全民阅读促进条例》正式施行，中国国家版本馆作为国家重大文化工程，其历史使命与“全民阅读”主题天然契合，今年我们将立足丰富的版本资源，以“书香中国文脉赓续”为主题，推出系列阅读活动，在第五届全民阅读大会上策划举办阅读主题展览，传承弘扬中华文脉，助力书香社会建设。

编辑：吴凡

审核：樊凡

刘成勇：为构建中华文化种子基因库持续发力

最近更新了微信版本的人，大家很难在杂乱的消息列表里找到我！

其实只要简单的几步操作，将我置顶起来——

中国新闻出版传媒集团微信矩阵

↓看看更有针对性的细分领域↓

版话儿

版人版语

传媒瞭望

发行观察

广电家

好书品读

印业独家

中国农家书屋

中国出版

↑喜欢我，就点开二维码图片并识别我吧↑

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

饶高琦 | 基于市场需求的新质语言教育探索

2026年4月4日 09:00

徐惠 2026-04-04 09:00 江苏

数智时代新质语言教育成刚需，探析人才培养、困境及重构路径。

转载自“语言教学与研究”

本文来源：魏晖,施春宏,刘晓海,等.“新质语言教育”大家谈[J].语言教学与研究,2026,(02):1-15.

编者按

语言教学与研究

数智时代的到来与技术的飞速发展引发市场对人才需求结构的根本性转变，着力培养“懂语言十懂技术”以及能应用、会管理的多元化、技术化、场景化复合型人才已成为时代发展的迫切要务，这一趋势正驱动着语言教育的深层次变革。有学者认为，变革的方向是以服务新质生产力发展为根本导向，以培养国家和社会急需的新质语言人才为根本任务，以高科技为驱动，以高效能为追求，以高质量为目标，可称之为新质语言教育。本期刊发的“大家谈”讨论了新质语言教育的基本定位、属性特征和相关学科建设问题，分析了新质语言人才的核心能力与培养面临的现实困境，提出了新质语言教育的路径重构，讨论了面向应用场景的语言工程人才的核心能力，基于实践初步构建了培养卓越语言工程师的新质语言教育体系。欢迎学界同仁积极参与、共献智慧，大力推进新质语言教育研究和实践工作，欢迎大家就相关专题做出具体的实证研究和理论思考。本刊将持续推动相关研究，以践行“推进学术，建设学科，发展事业，服务社会”的办刊宗旨。

基于市场需求的新质语言教育探索

北京语言大学语言科学与资源学院饶高琦

在人工智能与数字经济的双重驱动下，市场对语言人才的需求已从单一技能型，转为“语言学十技术十场景”的复合能力型。2025年初教育部、国家语委、中央网信办联合印发《关于加强数字中文建设推进语言文字信息化发展的意见》,明确提出“构建数字时代语言人才培养体系，强化语言智能与多领域融合应用”,这为语言人才培养的转型发展指明了方向。在教育强国战略背景下，立足语教融合理念与“大语言学观”，变革语言教育，培养适应市场需求的语言人才(可称之为新质语言人才，相应的语言教育称为新质语言教育),既是语言学学科自身发展的内在要求，也是服务国家数字经济建设的必然选择。

一、市场需求驱动下新质语言人才的核心能力构成

(一)新质语言人才的市场需求

当前，语言人才市场呈现多元化、技术化、场景化特征。从招聘市场数据看(基于本课题组在几大主流招聘网站进行的相关招聘广告的抓取和分析)，人工智能与数据标注相关岗位占比已达62%，成为新质语言人才的核心需求领域，典型岗位包括AI训练师、数据标注师、提示词工程师等。数据标注产业的蓬勃发展直观反映了市场对基础语言人才的迫切需求。我国目前已有5.8万全职数据标注员(数据来源:中国信通院《数据标注产业发展研究报告(2025)》)。经估算,2025年我国数据标注员岗位缺口将高达100万，数据标注市场规模达到102.1亿元(数据来源:中商产业研究院)。数据产业不仅提供了大量基础岗位，更催生了对数据标注管理、语料库建设、标注规范制定等中高端人才的需求。这些岗位从业人员不再局限于传统语言学的培养内容，而是要求将语言学理论转化为机器可识别、可处理的结构化数据与规则体系。而大模型背景下的人机交互则进一步拓展了新质语言人才的就业边界，催生了大模型产品经理、提示词工程师等岗位。它们要求从业者兼具语言学素养、逻辑思维与产品意识。除技术导向型岗位外，文化传媒与编辑、教育科研、技术支持与本地化等领域对语言人才的需求也呈现出交叉融合特征。本地化技术支持岗位要求掌握多语言翻译与跨文化沟通技能。这种多元化需求图景表明，新质语言人才必须突破单一学科局限，形成适应多场景应用的能力体系。

(二)新质语言人才的核心能力

2018年，谷歌公司在语言资源与评测大会(LREC)上发布了“语言学者工业界就业能力量表”(下称“谷歌能力量表”)。虽然IT技术在过去7年出现爆发式增长，但其能力侧面依然有效。结合我国特点，我们认为新质语言人才的核心能力可从语言学本体、技术应用、交叉融合与场景落地四个维度进行概括。

语言学本体能力是基础，涵盖语音学、句法学等核心理论，需掌握国际音标、语料库技术。

该能力在谷歌能力量表占比33%，是区分专业与普通语言从业者的关键。技术应用能力是核心竞争力，包括编程、数据处理、大模型使用等技能。本课题调研数据显示，60%以上A1相关岗位要求编程与数据处理能力，基础标注岗有脚本编写能力者晋升更优。

交叉融合能力体现“大语言学观”,要求打破文理藩篱，融合计算机、社会学等多学科知识。如社交媒体运营需结合语言学与社会学挖掘语言规律，医疗、金融相关岗位需融合对应行业知识。这是市场需求，也是语言学科创新发展的路径。

场景落地能力强调理论落地，须具备需求分析、产品思维等素养。

二、新质语言人才培养的现实困境

(一)学科壁垒尚未打破，培养体系滞后

当前传统中国语言文学、外国语言文学等专业课程设置偏重理论研究，与计算机科学、数据科学等技术学科的融合不足。本课题调研了多所高校语言学专业课程发现，编程、数据处理、AI技术处理相关课程占比不足10%，导致学生技术应用能力薄弱，难以满足市场对“懂语言十懂技术”复合型人才的需求。本课题调研显示，58%语言工程类岗位明确要求计算机或数学背景;即使是数据标注等基础岗位，也有近68%要求应聘者有相关经验。

在学科困境中，尤为凸显的是跨学科师资力量匮乏和教学模式创新不足的问题。新质语言人才培养需兼具语言学理论功底与技术应用能力的跨学科师资。但当前教师队伍，缺乏产业实践经验与技术训练，难以有效开展跨学科教学。部分高校虽尝试引人计算机专业教师参与，但由于学科差异巨大，协同难度大，课程内容衔接不畅，难以形成系统的培养体系。

此外，教学模式创新不足也制约了人才培养质量提升。当前教学仍以课堂讲授为主，互动式、项目式教学占比偏低，导致学生实践能力较弱。

(二)语言资源建设与利用不充分，人才供需匹配度不高

语言资源的建设和研究是数智时代对语言学学科提出的重大需求，特别强调语言资源的监测、挖掘和利用。但当前高校语料库建设普遍存在规模小、类型单一、更新缓慢等问题，缺乏多领域、多模态的真实语料资源，与企业实际应用场景脱节。语言智能技术平台建设滞后，多数高校尚未配备先进的AI训练工具、语音处理设备等，学生既缺乏相关意识培养，也不具备实践操作的软硬件条件。

三、基于市场需求的新质语言教育路径重构

(一)坚持语教融合，构建跨学科培养体系

语教融合是新质语言教育的核心理念，这要求打破语言学和语言教学、语言和技术、理论与实践的教学壁垒，实现知识、技能与素养的一体化培养。在课程体系重构方面，应立足“大语言学观”,以语言本体计算为核心，构建“基础理论十技术技能十场景应用”的模块化课程体系，基础理论模块保留普通语言学、应用语言学等核心课程，增设语料库语言学、计算语言学、语言资源学等交叉课程，夯实语言学基础;技术技能模块引入脚本编程、数据结构、机器学习基础、A1工具应用等课程，培养技术应用能力;场景应用模块根据市场需求设置NLP应用、语言模型训练、跨文化沟通、舆情分析等课程，提升场景落地能力。

在教学模式创新方面，应推广项目式教学、案例教学等方法，以真实产业项目为载体，引导学生主动参与问题解决。建立校企联合教学团队，邀请企业专家参与课程设计与教学，将技术需求与实践案例引入课堂。为此可构建“课堂实践十校内实训十企业实习”的三级实践教学体系，强化学生的场景落地能力。

此外，还应加大投入建设校内实训平台，配备数据标注工具、语音合成系统、大模型训练平台等条件，为学生提供常态化的实践环境。

(二)立足资源导向，强化语言资源建设与利用

语言资源建设是新质语言教育的重要方面。在语料库建设方面，应联合高校、企业、科研机构共建共享超大规模、轻度加工、来源多样、动态更新、建设主体多元化的语料库。建立语料库标注规范与质量控制体系，提升语料库的可用性，同时培养学生的语料库建设与使用能力，新质语言教育的实施过程，也是推动语料库建设的过程。

构建语言资源共享机制，打破高校、企业间的资源壁垒，建立国家级语言资源共享平台。整合各类语料库、技术工具、教学等资源，实现资源的高效利用。鼓励高校教师基于共享资源开展教学改革与科研创新，开发个性化的教学案例与实践项目。

(三)对接教育强国战略，完善人才培养保障体系

应加强顶层设计，将新质语言人才培养纳入国家语言人才发展规划，明确人才培养的日标、任务与路径。教育行政部门加大对语言学学科建设的支持力度，引导高校优化专业结构:加快跨学科专业建设，重点支持AI与计算语言学、语言智能教育等新兴方向。加强师资队伍建设，打造一支兼具语言学理论功底、技术应用能力与产业实践经验的跨学科师资队伍。

四、结语

实施新质语言教育是一项系统工程，需要立足教育强国战略，坚持语教融合理念与“大语言学观”，打破学科壁垒，创新培养模式，强化资源支撑，构建适应数字时代发展要求的人才培养体系

高校作为人才培养的主阵地，应主动适应市场需求变化，深化教学改革，加强校企合作，提升人才培养质量;企业应积极参与人才培养过程，提供实践平台与技术支持，实现人才供需精准匹配;政府应加强政策引导与资源支持，营造良好的人才培养环境。

作者简介

语言教学与研究

饶高琦，北京语言大学副研究员、硕士生导师。北京语言大学语言学及应用语言学博士。中国中文信息学会青年工作委员会、计算语言学专委会、社会媒体计算专委会委员。主要研究方向为语言资源学、教育技术、语义规划学和数字人文。主持国家语委科研项目、教育部人文社科基金项目等多项课题，发表学术论文 50 余篇，参与起草规范、标准 5 种

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号

Call for paper | NLPCC 2026

2026年4月3日 09:00

NLPCC 2026 2026-04-03 09:00 江苏

NLPCC 2026于11月在澳门举办，6月13日截稿，录用论文由Springer出版。

转载自“计算机科学讲义”

会议全称：

The 15th CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC 2026)

时间地点：

2026年11月3-5日，澳门

会议网址：

http://tcci.ccf.org.cn/conference/2026/

联系人：

info@nlpcc2026.org

投稿链接：

https://openreview.net/group?id=ccf.org/NLPCC/2026/Conference #tab-recent-activity

大会简介

CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC 2026) 是中国计算机学会自然语言处理技术委员会的年度会议。自2012年创办以来，已在郑州（2020）、青岛（2021）、桂林（2022）、佛山（2023）、杭州（2024）和乌鲁木齐（2025）等地成功举办。NLPCC是自然语言处理和中文计算领域领先的国际会议。它为来自学术界、产业界和政府部门的研究人员和实践者提供了一个重要的交流平台，分享思想、研究成果和经验，并促进相关领域的研究和技术创新。

NLPCC 2026 将延续这一传统，欢迎提交原创性、高质量的研究成果。所有录用论文将由 Springer Lecture Notes in Artificial Intelligence (LNAI) 出版，并提交至主要学术数据库检索，确保研究成果的国际传播与学术影响力。

征稿方向

NLPCC 2026 欢迎以下领域的原创研究成果（包括但不限于）：

语言学与自然语言处理基础：Discourse and Pragmatics; Linguistic Theories, Cognitive Modeling and Psycholinguistics; Phonology, Morphology and Word Segmentation; Semantics; Syntax: Tagging, Chunking and Parsing
机器学习、模型与智能体：Machine Learning for NLP; Interpretability and Analysis of Models for NLP; Large Language Models; LLM Agents
多模态与交互系统：Machine Translation and Multilinguality; Speech and Multimodality; Dialogue and Interactive Systems
信息抽取、检索与文本理解：Information Extraction and Knowledge Acquisition; Information Retrieval and Text Mining; Question Answering; Text Summarization and Generation
应用与伦理：NLP Applications; Computational Social Science and Social Media; Sentiment Analysis; Ethics and NLP; Resources and Evaluation; AI for Science; AI for Software Engineering

重要日期

投稿截止：2026年6月13日
录用通知：2026年8月4日
终稿提交：2026年8月15日

大会组委会

General Chair

Yue Zhang, Westlake University

Program Chairs

Roy Ka-Wei Lee, Singapore University of Technology and Design

Qi Zhang, Fudan University

Meishan Zhang, Harbin Institute of Technology (Shenzhen)

Workshop Chairs

Tieyun Qian, Wuhan University

Yang Zhao, Institute of Automation, Chinese Academy of Sciences

Evaluation Chairs

Jie Yang, Harvard University

Kunli Zhang, Zhengzhou University

Tutorial Chairs

Zhaochun Ren, Leiden University

Wenbin Jiang, Beijing Normal University

Xiting Wang, Renmin University of China

Publication Chairs

Jianxing Yu, Sun Yat-sen University

Jin Wang, Yunnan University

Organization Chairs

Derek F. Wong, University of Macau

Haofen Wang, Tongji University

往届论文推荐

Retrieval-Augmented Code Generation for Universal Information Extraction
https://link.springer.com/chapter/10.1007/978-981-97-9434-8_3
MACO: A Modality Adversarial and Contrastive Framework for Modality-Missing Multi-modal Knowledge Graph Completion
https://link.springer.com/chapter/10.1007/978-3-031-44693-1_10
MarkBERT: Marking Word Boundaries Improves Chinese BERT
https://link.springer.com/chapter/10.1007/978-3-031-44693-1_26
Chain of Stance: Stance Detection with Large Language Models
https://link.springer.com/chapter/10.1007/978-981-97-9443-0_7
GSEA: Global Structure-Aware Graph Neural Networks for Entity Alignment
https://link.springer.com/chapter/10.1007/978-981-97-9434-8_15
Seal-Tools: Self-instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark
https://link.springer.com/chapter/10.1007/978-981-97-9434-8_29

欢迎通过Springer出版您组织的学术会议，联系编辑团队获取合作信息！

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

阅读视图

Call For Papers

Topics

感谢会务组授权发布！排版：拊石

2.1 三类语言神经元的划分与定义

2.2 神经元识别算法

4.1 神经元失活实验

4.2 四阶段多语言推理流程

4.3 多语言对齐的影响

4.4 自发多语言对齐现象

感谢会务组授权发布！
排版：拊石