安波 龙从军 | AI时代中国语言知识库构建:理论与方法
云南师范大学学报 2026-05-09 11:10 江苏
分享一篇文章
云南师范大学学报哲社版: 安波 龙从军 | AI时代中国语言知识库构建:理论与方法
人工智能快速发展,使语言研究从依赖少量材料与经验判断,转向需要在海量真实语料中进行系统检验与归纳。相比“只把材料收集起来”的传统语料库,文章主张建设面向汉语及我国少数民族语言的“中国语言知识库”。
安波,男,中国社会科学院副研究员,博士,中国社会科学院大学硕士生导师,研究方向为自然语言处理。
龙从军,男,中国社会科学院研究员,中国社会科学院大学教授,博士,博士生导师,研究方向为计算语言学、语料库语言学、数字人文。
一、引言
进入人工智能时代,语言研究正在经历明显的转向。随着大规模语言模型应用的日益广泛,依赖少量材料与研究者直觉的传统路径,越来越多地让位于基于海量语言材料的检验、比对与归纳。近年来教育主管部门启动国家关键语料库建设计划,提出到2027年基本建成国家语言文字大数据中心和战略资源库,希望更充分释放语言数据在经济社会发展与人工智能应用中的价值。
不过,从目前情况看,语言资源建设仍主要停留在语料库层面,即以尽可能多地汇集原始文本与语音材料为主,供研究与模型训练使用。仅有语料库,尚不足以回应人工智能时代对语言知识的更高要求:其一,大模型的学习基础仍以英语等资源丰富语言为主,资源不足语言在数字世界中更容易被忽视。其二,缺少对语言现象更细致、更加一致的标注与整理,使得材料难以上升为可反复核验、可系统利用的知识,也就难以支撑对语言规律的深入把握。还有研究显示,网络知识资源对资源不足语言的覆盖不够,会进一步加剧这些语言在数字时代的弱势处境。大语言模型对语言学提出了严峻挑战,但同时也是语言学发展一个千载难逢的机会。
因此,有必要在汇集材料的基础上建设面向人工智能应用的中国语言知识库,在汇集材料的基础上,系统整合汉语及我国少数民族语言的文本、录音与影像等资料,并通过严格的标注、编目与关联,把分散的语言材料整理为便于检索、比对与追溯的知识资源,从而推动语言资源的深度开发。此项工作不仅具有学术意义,可为语言学理论研究提供更坚实的数据支撑,而且具有现实价值,既能服务于濒危语言与方言的记录和保护,又能为资源不足语言的智能处理提供更可靠的训练材料与评测依据,推动技术发展走向更充分的多样性与包容性。下文将在引言提出问题的基础上,依次讨论相关概念界定、总体设计、建设方法、理论依据、应用前景以及治理与伦理等议题。
二、学理基础与范围界定
建设面向人工智能时代的中国语言知识库,首先需要厘清学理立场与讨论范围。语言研究的许多争论,往往并不出在概念本身,而出在材料是否充分、语境是否清楚、结论能否复核。尤其在大数据与自动化处理日益普及的今天,更需要强调一种朴素而关键的学术态度,任何关于语言的概括,都应以可核验的材料为前提,并尽可能保留回到原始语境的路径。本文提出知识库构想,正是希望在材料积累与知识归纳之间建立更稳固的连接,使语言研究能够在更丰富的证据基础上展开,也使相关成果能够经得起反复检验与持续更新。
这一立场与语言学中重视材料与语境的传统是一致的。无论是对汉语方言与少数民族语言的记录整理,还是对历时文献的训诂考释,学术工作都离不开对真实话语的保存、转写、译注与解释。材料越扎实,研究越能避免凭印象下结论;语境越清楚,解释越不易滑向抽象化的空谈。与此同时,语料研究的发展也表明,大规模、成系统的语言材料能够揭示许多基于少量例证难以发现的规律,并为既有理论提供更严格的检验条件。
本文同样强调多语言并置的视角。中国语言生活的基本事实,是多样性与多层次并存,既有以汉语为主体的普通话与各地方言土语,也有数量可观、类型各异的少数民族语言;既有当代活态语言,也有承载历史演变信息的文献材料。若只以单一语言或单一体裁作为默认对象,许多对比性的线索就会被遮蔽,许多看似普遍的结论也可能只是某一范围内的局部现象。因此,本文所说的中国语言,取其广义,指中国境内使用的各类语言资源,包括现代汉语及其方言土语,也包括藏语、维吾尔语、蒙古语、壮语、苗语等少数民族语言及其地区变体;同时兼顾历史阶段材料与当代材料。这样界定,是为了让知识库建设从一开始就具备兼容多样、便于对比的格局,使汉语研究与少数民族语言研究能够在同一平台上共享方法与资源,并在必要时实现互证与互释。
在明确对象范围之后,还需要说明本文为何要提出知识库这一建设方向。过去的语言资源建设多以语料库为中心,其贡献不可忽视,大量文本、录音与转写的汇集,为研究与模型训练提供了基础。但语料库往往更强调材料的收纳,而较少承担材料的系统整理。在人工智能时代,尤其在资源不足语言面临数字可见度下降的背景下,仅有材料的堆积仍显不足。许多语言现象如果缺少较为一致的切分、释义、译注与结构整理,研究者很难在大规模材料中稳定地检索与比较。本文所说的知识库,意在保存原始材料的基础上,进一步把材料中的词汇、语法与结构信息较为明确地整理出来,并以可追溯的方式组织呈现。它要求结论始终能够回到材料,读者不仅看到解释,还能看到依据;不仅看到归纳,还能检索到代表性例证与原始语境。这样,知识生成过程更透明,学术讨论也更容易回到可核验的材料层面。
与此相关的是本文对整理与标注的理解。所谓高质量整理,强调标准明确、口径一致,并经过必要的校订。对于书面材料,至少应在词语边界、词类属性、句子结构等方面做到清楚。对于口语材料,还需要有可靠的转写,并尽可能保留语音与语境信息,以便研究者在需要时回听核对。对于跨语言材料,译注与解释需要尽量可对照、可复核,避免译文与原文之间缺乏依据。尤其在少数民族语言整理中,常见把同一段话的原文、转写、切分、解释与译文按行排列并对齐,使读者可以顺着对应关系理解分析过程与翻译依据。这种做法的重要之处在于它把材料、分析与解释放在同一处,减少只见结论不见依据的问题,也为跨语言对照研究提供了较为直观的支撑。本文采用这一整理方式,目的在于提升材料的可读性与可检验性。
最后,需要交代本文对语言材料形态的基本态度。语言并不只存在于书面文本之中,许多关键现象依赖语音、语调、停顿与交际场景,甚至依赖表情、手势与共同注意的对象。对濒危语言与方言而言,音视频材料往往是保存语言实践的不可替代依据。因此,知识库将把文字、录音、影像与图片等资料纳入同一框架,并尽可能保留它们之间的对应关系。这样做的意义在于:研究者在阅读转写与解释时,可以回到录音影像核对细节。在讨论某些文化负载较强的词汇与表达时,也能借助场景与图像更准确地把握其所指与用法。多种材料形态的并置是为了让语言事实更完整、更可核验,从而为后续的比较、归纳与应用提供更可靠的基础。
综上所述,本文的学理基础可以概括为:一是以材料与语境为中心,强调结论可追溯、可复核;二是以中国语言生活的多样性为前提,强调多语言并置与可比性;三是在语料汇集之上推进系统整理,使语言事实能够转化为便于检索、对照与持续更新的知识资源。
三、中国语言知识库的总体构想
中国语言知识库,旨在回应人工智能时代语言研究与语言应用对可靠材料和可用知识的双重需求。所谓总体构想,就是要形成一种可长期积累、持续更新、便于检索比对并能随时回到语境核验的学术基础设施。它既要充分保存语言事实的原貌,又要把分散的语言现象整理成可供研究者反复调用的知识资源,从而避免材料与解释相互脱节,也避免只有概括而缺少证据支撑的情况。
这一构想的核心,是用清晰的层次把“保存材料”“整理材料”“归纳知识”三类工作区分开来,并在三者之间建立稳定的回溯通道。具体而言,知识库可概括为证据层、标注层与知识层的三层结构。证据层负责把语言事实保存完整并说明来源,标注层负责把材料整理得便于检索与核验,知识层则在可靠整理的基础上形成较为稳定的词汇、用法与结构性条目,并把条目与证据对应起来,使读者能够由结论返回用例,再返回语境。
为了让回到材料成为一种可日常操作的能力,知识库在组织上需要确定一个较为清楚的基本单位。本文倾向于以语言片段为基本组织单位,这里的片段既可以是一句话、一个话轮,也可以是一段短小的叙事或一则对话片段。重要的不在于单位大小,而在于它能够携带足够的语境信息,并能与相关材料对应。每一个语言片段应当与其出处相连:出自哪一部文献,采集于何时何地,由谁说出或写下,处于何种交际场景,是否为口语转写,是否有音视频可回听回看。这样,片段不再是孤立的句子,而是带着语境的材料条目。只有把这一步做扎实,后续的整理与归纳才不会成为脱离语境的抽象。
(一)证据层
证据层所承担的任务,是尽可能保留语言事实的原貌,并确保材料来历清楚、可核验。证据层不仅收纳书面文本,也应当包括录音、口述故事、会话影像、手语视频以及与语言使用相关的图片资料。对人文学者而言,证据层最重要的不是数量,而是可用性,一份材料是否能支撑分析,往往取决于语境是否清楚、出处是否明确、版本是否可靠、记录是否完整。文本材料需要说明来源与版本,口语材料需要说明采集过程与说话人背景,影像材料需要说明场景与参与者关系,图片材料需要说明对象指认与拍摄情境。证据层还应当尽量保留材料的内部结构,例如篇章边界、段落结构、会话轮次、说话人切换、停顿与重叠等,以免在后续转写与整理中把语言实践的关键线索消解掉。
证据层的另一项关键工作,是在材料收集与入库阶段尽量兼顾代表性与多样性,使知识库能够反映较为真实的语言生态,而不至于受某一类材料影响而产生偏差。汉语材料既需要兼顾历史文献与当代文本,也需要兼顾不同体裁与不同使用场景;汉语方言与少数民族语言材料则尤其需要兼顾不同地域、不同代际与不同交际场景,因为许多用法与词汇只在特定场景中出现。证据层如果过于集中于某一类文本,例如大量书面材料而缺少口语材料,就会导致后续知识归纳偏向书面用法;若口语材料只来自少数说话人或单一场景,也会使许多社会变异与语域差异难以呈现。因此,证据层的构建应当有基本的采集规划与补足机制,做到“看见欠缺、能够补足”,从而为标注层与知识层提供更稳固的基础。
(二)标注层
标注层的作用是把材料整理得更便于检索、对照与讨论。这里的标注应理解为学术意义上的整理与注释。整理的目标,是让研究者能够更快地定位现象、更可靠地比较材料、更清楚地复核解释。就文本材料而言,至少需要对词语边界、词类属性、句子结构等做相对一致的处理。就口语材料而言,首先需要有可靠的转写,并尽可能保留与录音影像之间的对应关系,使读者在对某一处切分、某一处理解存疑时能够回听核对。就跨语言材料而言,需要有可对照的译注与解释,尽量让译文与原文之间的对应关系清楚可查。标注层的任务是在尽量不损失语境信息的前提下,把材料中可讨论的语言信息标示出来。
在标注层的组织方式上,少数民族语言记录整理形成了一种颇为有效的传统,即将同一段话的不同层次信息按行排列并对齐。通常先呈现原文,再转写,随后做切分并附以必要的语法说明,再给出逐词解释与整句译文。它的意义是把材料、分析与翻译放在同一处,使读者可以顺着对齐关系逐步核对,某个成分为何这样切分,某个意义为何这样解释,译文的选择依据何在,都能在同一条材料中找到线索。对学者而言,这种呈现方式格外重要,因为它保留了研究过程的可见性,使解释能够在材料层面接受检验。知识库将吸收这一标注方式的优点,并根据不同材料类型作调整,使其既适用于少数民族语言资料,也适用于汉语方言材料与部分历史文献材料的整理,从而增强不同语言材料之间的可比性。
标注层的内容可概括为3个方面的整理:其一是语言形式的整理,处理词语边界、词类标注、句子结构、必要的语音信息与转写规范等,使材料在形式层面可检索、可统计、可对照。其二是意义与用法的整理,处理词义辨析、指代关系、语境功能以及译注说明等,使材料在解释层面可理解、可讨论、可复核。其三是语境与文化信息的补充,针对与社会生活、礼貌策略、习俗传统密切相关的表达,适度说明其使用场景与背景线索,使解释不至于脱离真实语言生活。
标注层还必须重视一致性与可校正性。所谓一致性是要求对同类现象尽量采用可重复的处理方式,并把例外情况的处理原则说清楚。面对真实语言材料,含混与不确定常常不可避免,例如口语材料中的省略、重复、纠错,历史文献中的异文异读,方言材料中的变体与摇摆。知识库允许在标注层中保留必要的说明,例如对可疑处作出注记,对不同的可能解释并列呈现,对后续可修订之处保留修订空间。如此,标注层不仅为机器提供训练材料,更重要的是为学术讨论保留可以被质疑、可以被修正的入口,使知识库能够在共同体的检验与积累中逐步提升质量。
(三)知识层
知识层是在证据与标注的基础上形成的归纳成果。它的目标是帮助研究者从海量材料中更快定位关键现象,并把相对稳定的规律整理成便于查询与引用的条目。知识层可以包含多种类型的成果,但其共同要求是与证据保持可追溯联系。词汇方面,可以形成较规范的词条信息,包括读音、写法、意义、常见搭配与代表性用例。少数民族语言部分则可形成双语对照的词汇整理,并标明来源用例与语境条件。语法与用法方面,可以归纳常见句式与结构特点,给出典型例句,并指出其适用范围与常见变体。跨语言对照方面,可以整理同一概念不同语言的表达方式,或整理常见的对应关系与译法差异,便于比较研究。文化与专题方面,则可围绕特定领域与主题整理术语与相关表达,例如传统生活、民间信仰、地方制度等,使知识库能够在学术研究之外,服务于教育与文化传播的需要。
需要特别强调的是,知识层的“归纳”应当是一种建立在证据之上的归纳。它不宜只给出抽象结论,而应以代表性用例支撑,并提供返回证据的路径。对学术研究而言,一条结论的可信度往往取决于其证据链条是否清楚,它基于哪些材料,材料分布是否广泛,用例是否典型,是否存在反例与限制条件。知识层若能把这些信息尽可能透明地呈现出来,就能显著提升其学术可用性。研究者在引用某一条目时,可以直接查看其代表性例句与出处;在质疑或补充时,也能在证据层找到相近材料继续讨论。如此,知识库中的条目不再是被固定的答案,而是可以在共同体使用中不断完善的研究节点。
证据层、标注层与知识层三层之间的贯通,是这一总体构想能否成立的关键。如果只是并列堆放,知识库仍可能沦为材料仓库或结论合集。本文强调的是一种双向贯通的关联:一方面,知识层中的条目应当能指向标注层中的代表性材料,再指向证据层中的原始语境。另一方面,证据层中的材料也应当能反向连接到相关的整理结果与知识条目,使读者在阅读材料时能够迅速看到相关解释与归纳。这样的贯通机制,既能提升检索效率,也能保持解释与材料的紧密连接。
由于本文强调文字、录音与影像等不同形态资料的并置,三层结构的贯通还应体现为材料之间的相互印证。对口语材料而言,文字转写只是进入分析的入口,许多重要信息仍保存在语音与场景之中。若知识库能够把转写与录音和影像对应起来,研究者就能在讨论某一处停顿、某一处语调、某一处含混时回到原声,避免仅凭文字作判断。对一些文化负载较强的表达而言,图片与场景说明也能显著减少误解,使语言解释更接近生活世界。这样的安排是把“可回听、可回看、可回查”的学术常识落实到知识库结构之中,使材料真正成为可持续使用的研究资源。
中国语言知识库的总体构想可以概括为:以可追溯的材料保存为根基,以较为一致的整理与注释为桥梁,以建立在证据之上的归纳条目为成果,并在三者之间构建双向可追溯的关联通道。它既尊重语言事实的复杂性,也尽力提供可用、可查、可核验的知识资源。这样的构想之所以必要,是因为它把传统人文学术中重证据、重语境、重可复核的要求,转化为一种可长期运行的资源形态,使语言研究能够在更广阔的材料基础上持续推进,也为语言记录、教育传播与智能应用提供更可靠的共同资源。在此总体构想之下,下面将进一步讨论建设方法与质量保障,说明如何在采集、整理、校订与更新等环节上形成可操作的流程,使上述设想能够落地实施并稳定运行。
四、建设方法与质量保障
中国语言知识库的建设,归根结底是一项以材料为中心的长期工作。与一次性资料汇编不同,它必须在持续积累中逐步形成稳定的工作流程,使材料能够被可靠保存,使整理结果能够被反复使用,使由材料归纳出的知识条目能够经得起检验。进入人工智能时代,知识库建设又多了一层现实条件,一方面,语言数据的来源更加多样,规模更大,单靠人工从头到尾处理,成本高、周期长。另一方面,语音识别、文字识别、分词、机器翻译等工具日益成熟,为先粗后细、层层校订的整理路径提供了新的可能。本文强调,技术的价值不在于替代学术判断,而在于承担大量重复性工作,把研究者从体力劳动中解放出来,从而把更多精力投入标准制定、疑难处理与质量把关之中。换言之,应当形成一种更符合人文学术传统的工作原则,机器负责生成初稿与提示线索,人工负责核验、修订与解释;技术手段用于扩展规模与提高效率,学术规范负责控制误差与维持可复核性。
知识库建设的第一环节是材料采集与入库。此处最需要警惕的是材料来源不清、语境缺失、结构偏斜。无论是书面文本、录音影像还是图片资料,都应在入库时配有必要的背景说明,例如来源与版本、采集时间地点、说话人或作者的基本情况、交际场景与话题类型、是否经过整理加工、是否存在公开限制等。对于口语与田野材料而言,语境信息往往比文字本身更关键,因为大量用法依赖说话人关系、场景约束与非语言线索;对于历史文献材料而言,版本与出处决定了可引用性与可比性。这里的入库规范应当尽量简明、可执行,强调可追溯而非面面俱到,但凡可能影响理解与引用的信息,都应尽量在入库阶段记录下来。技术上,可以通过统一的入库模板来约束填写项,并为每份材料分配稳定标识,使后续的转写、译注、抽取与发布能够持续引用同一来源,而不是在不同环节重复生成相互割裂的编号体系。
在采集与入库阶段,人工智能可以发挥两类辅助作用。其一是帮助发现材料。其二是帮助“初步分拣”。对海量文本可先做体裁识别、语言或方言线索识别,对音视频可先做时长统计与音质评估,对图片可先做内容标签提示,以便在后续整理中优先处理高价值、代表性强的材料。需要强调的是,这些自动分拣只能作为线索,最终仍需人工抽查核验,以免算法偏差在早期就影响材料结构。
第二环节是材料数字化与基础清理。中国语言知识库必然涉及大量纸质文献、地方志、辞书资料以及社区内部保存的文本影印件,也可能涉及传统文字或多种书写体系。文字识别在这里可以显著降低人工录入成本。对印刷体材料,可使用通用的文字识别工具先生成可编辑文本,再由人工校对。对版式复杂的文献,可结合版面分析先分栏分段,再进入识别与校对;对质量较差的扫描件,可先进行图像清理与倾斜矫正,提高识别效果。对民族语言文本,若存在多文字体系并存的情况,如同一材料同时出现本民族文字与转写体系,文字识别可先处理可识别部分,再由人工补全难识别部分。无论采用何种工具,校对都不应被视作“补救措施”,而应被纳入正式流程,对于将被频繁引用的核心材料,可采用双人校对或抽样复核,并记录典型错误类型,形成可复用的校对规则与替换表。只有把“识别 - 校对 - 留痕”做成稳定机制,数字化成果才能成为可持续使用的学术资源,而不是一次性成果。
第三环节是语音材料的转写与对齐。对汉语方言与少数民族语言而言,录音与影像往往是最珍贵的证据。传统做法依赖人工逐句听写,质量高但周期长。人工智能在此处最直接的贡献,是语音识别可以提供转写初稿,并且能够把音频切分成较小单位,帮助整理者更高效地定位与复核。需要看到的是,语音识别并非一经调用就能直接生成准确文本,尤其面对口音差异大、背景噪声强、夹杂多语或代码转换的材料时,错误不可避免。因而更合理的策略是把语音识别定位为辅助生成初稿与时间信息的工具,让人工把关与修订成为正式环节。具体流程可以是先用语音活动检测将长录音切分为较稳定的语段,再用语音识别生成每段的初步转写,同时保留每段的时间位置。整理者在界面上边听边改,系统记录修改点与错误类型,形成可复核的修订痕迹。对于对话材料,还应尽量区分不同说话人,以免转写混淆语境。即便自动分离说话人不够准确,也可以让整理者在关键段落手工校正,从而保证后续分析所需的“话轮结构”。
在低资源语言与方言场景中,通用语音识别工具常常效果有限。此时,多语种预训练模型提供了重要的起步能力。与此同时,也要清醒认识其局限,模型可能把相似音段误识为另一种语言或另一种常见词形,可能在专名、文化词、罕见词处频繁出错,也可能因为训练数据结构偏差而对某些口音的识别能力较弱。因此,知识库建设中使用此类模型,应当把重点放在辅助转写与对齐,而不是把输出直接当作可发布文本。
与转写密切相关的,是语音与文本的对应关系。学术研究强调回到材料,在口语研究中尤其体现为回听核对。因此,知识库应当尽量在转写文本中保留与音频或视频的时间对应,使研究者能够从一句转写快速跳回到原始语境。即便不追求逐字级的精细对应,至少做到句子或话轮级的对应,也能极大提升材料的可核验性。对齐工具可以在此发挥辅助作用:在已有转写的基础上,让系统自动估计每句在音频中的起止位置,再由人工抽查校正。对于将被反复引用的典型材料,可进一步细化对应粒度,使关键语段在学术引用中更易定位。这种对应机制并非技术展示,而是一种方法论要求的落实,它把证据链从理念变成可操作的实现机制,使读者不必依赖整理者的个人信誉,而可以依靠材料本身完成核验。
第四环节是文本材料的基础处理与检索准备。知识库面对的是海量文本与多语材料,若缺少基本的文本处理,检索与比对将困难重重。这里的技术手段主要包括分词、词类初判、专名识别与句子切分等。对汉语而言,分词工具可以提供初步切分,但分词本身在不少边界处存在争议,尤其在古汉语与方言材料中更是如此。因此,知识库建设不宜把分词结果视为真理,而应将其视为可修订的初稿。更稳妥的方式是:先用工具生成初稿,再由整理者依据统一规范进行校订;对争议较大的边界处,可保留注记或并列方案,并在规范中写明处理原则。对少数民族语言而言,词形变化较丰富或构词结构较复杂时,单纯套用通用分词往往不可靠,需要结合该语言的实际情况制定切分原则,并逐步积累词表与构词模式,反过来改善工具的提示能力。这里体现出知识库建设“人机协作”的路径:工具的价值在于提高初始效率,规范与积累的价值在于不断提升一致性与可比性。
第五环节是翻译与跨语言对应。中国语言知识库不仅服务单语研究,更重要的是为多语言并置与比较提供基础。对少数民族语言材料而言,译注往往是知识库可用性的关键;对方言材料与历史文献材料而言,现代汉语释义与语境说明同样重要。机器翻译在此可以承担“提供译文草稿与对照线索”的角色,尤其在材料规模较大、需要快速形成可读译文以便初步检索时,机器翻译能显著提高效率。但机器翻译的输出必须被视为“需要核验的草稿”,尤其在文化负载词、礼俗用语、隐喻表达、话语语气等方面,机器翻译常常会误解或过度直译。更稳妥的流程是:先用机器翻译生成整句译文草稿,再由熟悉语境的整理者校订,并在必要时补充逐词解释或关键成分说明;对反复出现的核心词汇与固定搭配,可建立双语词表与例句库,让后续翻译能在一致译法基础上推进,避免同一词在不同材料中译法漂移。对于资源不足语言,还可以结合前述多语种预训练模型与已有小规模双语资料,通过迭代方式逐步改进翻译质量,但无论如何,最终译注都应保留可回到原文核验的路径,避免“译文替代材料”的风险。
在翻译工作中,按行对照的呈现方式仍具有重要意义。把原文、转写、切分、必要的解释与译文放在同一处,不仅对读者友好,对质量控制也友好。机器翻译与自动对齐工具可以辅助生成初步对照关系,例如提示某个词或短语在译文中可能对应的位置,但对照关系最终仍需人工确认。对照越清楚,越能减少“译文看似通顺却与原文脱节”的问题,也越有利于后续跨语言检索与比较研究。这里的关键仍是可核验:译文不只是读者理解内容的桥梁,也应当成为研究者讨论语言结构与意义的可操作入口。
第六环节是质量控制体系的建立。知识库的生命在于可信度,而可信度来自可检验性与一致性。质量控制不应只发生在最后发布前的抽检,而应贯穿材料采集、转写整理、译注校订与知识归纳的全过程。采集阶段要检查来源信息是否完整、授权边界是否明确、材料是否符合预定范围;转写阶段要检查关键材料是否完成复核,常见错误是否被记录并反馈到规范中;分词与基础处理阶段要检查处理口径是否统一,对争议处是否有注记与处理原则;译注阶段要检查核心词汇与固定表达是否保持译法一致,对文化负载内容是否有必要说明。对将被高频使用的核心材料,可以采用更严格的复核制度。质量控制的目标并不是把所有材料做到同等精细,而是把关键材料做到可靠,把整体材料做到可用,并让误差的分布与边界对使用者透明。
为了让质量控制可执行,知识库应配套可读的规范文档与示例库。规范文档不宜停留在原则层面,而应以问题驱动的方式给出操作流程,例如口语中的重复与自我修正如何处理,历史文献的异体字与异文如何记录,方言中的变体如何呈现,双语译注如何保持一致。示例库则把典型难点案例整理出来,形成可供训练与讨论的公共参照。技术工具生成的初稿与人工修订的痕迹,也应当成为示例库的重要来源:一方面,示例能帮助新成员快速掌握处理规范;另一方面,示例也能让工具开发与参数调整更有针对性。随着建设推进,规范与示例应允许修订,但每次修订都应留下记录,并说明变动原因。
第七环节是版本管理与成果发布。作为学术基础设施,知识库必须提供清晰的版本概念,使研究者能够指明使用的是哪个版本,并在资源更新后仍可追溯到当时使用的材料与整理结果。较为稳妥的做法是分期发布:每次发布一个相对稳定的版本,配套版本说明,说明新增材料范围、整理层次、规范变动与已知问题;旧版本应保留归档,不应被覆盖删除。对外发布时,还应提供必要的统计概况与使用说明,让使用者了解材料分布、语言覆盖、体裁结构、整理深度与抽检情况,从而在引用与解释时把握边界。技术上,可以为材料与条目配置稳定标识,便于长期引用与互相链接。对音视频片段的引用,也应尽量提供可指认的时间位置或片段编号,使回到原始材料的核验成为可能。对于技术工具输出参与较多的部分,更应在文档中说明其生成与校订流程,避免使用者误把草稿层结果当作终稿。
第八环节是纠错、反馈与持续更新。知识库一旦进入使用,就必然会遇到新材料纳入、旧材料更正、译注修订与规范调整。确保更新机制透明,是质量保障的重要组成部分。知识库应提供反馈通道,鼓励使用者报告错误或提出补充建议;内部应有处理流程,对反馈进行核实、分类与处置;对重要更正应在后续版本说明中公开列出,使学术共同体能够了解资源变化。对于争议较大的解释,可以保留讨论记录,必要时并列呈现不同观点,并标明依据差异。这样做并不削弱知识库的权威,反而更符合人文学术的真实面貌:许多问题本就需要在材料检验与学术讨论中逐步澄清。透明的修订史使知识库成为可以共同建设的公共资源,而不是不可讨论的既定结论集合。
在持续更新中,还需要兼顾新材料吸纳与新旧可比。当代语言变化迅速,网络语言、新词新用法层出不穷;少数民族语言与方言材料也会随着记录深入而出现新的话语类型与新的语境。知识库若要保持活力,就必须不断扩展材料类型与覆盖面。但扩展的同时,应保留对旧材料的可比性,使研究者能够追踪变化而不失参照。这要求更新策略区分扩容式更新与修订式更新:前者侧重纳入新材料与新条目,后者侧重更正错误、统一口径、补足说明。每一次更新都应留下清晰记录,使研究者能够理解变化发生在哪里、为何发生,从而在研究解释中把资源变化纳入考虑。
综上所述,融入人工智能技术是要在坚持人文学科证据意识与语境意识的前提下,使用语音识别、文字识别、分词与机器翻译等工具,把初稿生成、人工校订、规范沉淀,版本发布真正落到实处。特别是在资源不足语言场景中,多语种预训练模型如MMS等为从零起步提供了现实路径,使大量口语材料能够更快进入可整理、可检索状态。而人工复核与规范建设则确保这些工具不会把误差放大为“知识”。当技术与学术规范良性配合,知识库才能既具规模扩展的能力,又具学术可信的底线,最终成为能够长期积累、持续更新、经得起检验的语言研究基础设施。
五、学术价值、应用前景与治理伦理
中国语言知识库的意义,不仅在于增添一种新的资源形态,更在于它把语言研究中长期存在的若干难题,以更可操作、更可检验的方式重新组织起来。过去相当多的语言学讨论,受制于材料分散、语境缺失、例证难以复核,往往停留在举例说明层面,难以形成可持续积累的共同基础。人工智能时代又进一步放大了这一矛盾:一方面,语言技术发展需要更大规模、更高质量、结构更清晰的语言资源。另一方面,如果缺少系统整理与可靠证据,技术系统很容易在偏斜的数据上学习并放大偏差,使资源不足语言在数字世界中更加边缘。中国语言知识库的构想,正是在学术研究与现实需求的交汇处提出:它既要服务语言学的理论探索,也要为方言与民族语言的记录保护提供更稳固的载体,并在合规与审慎的前提下,为语言技术、教育传播等提供可用资源。以下从学术价值、应用前景与治理伦理3个方面,进一步说明这一知识库的可能贡献与应守边界。
就学术价值而言,知识库最直接的作用,是为语言研究提供更扎实的证据基础,并把可检验真正落实到研究过程之中。音系、语法、语义、语用、历时演变与类型比较等领域的研究,都需要大量真实材料作为支撑。仅有材料数量并不足以保证研究质量,关键在于材料是否可追溯、是否带语境、是否便于检索与对照。知识库在证据层保存原始文本与音视频,并在标注层提供较一致的整理与译注,使研究者可以在同一平台上进行跨体裁、跨场景、跨地域的检索与比较,降低研究成本。更重要的是,知识层将把反复出现的词汇、用法与结构性现象整理为条目,并保留回到代表性例证的路径,从而使研究者在提出概括时更容易检查其证据分布,避免因少量例证而过度泛化。对学术而言,这种将依据公开呈现出来的资源形态,能够显著提升讨论的效率。争论可以更快回到材料层面,分歧也更容易定位到语境差异、材料范围差异或处理口径差异,而不至于停留在各执一词的判断。
在历时与区域研究中,知识库的价值尤为明显。汉语历史材料浩繁且版本复杂,方言材料又常常零散分布于调查记录、地方志与研究论文中,学者在跨时期、跨地域比较时常面临“材料难找、形式难对齐、解释难复核”的障碍。若知识库能够把不同时期的文献材料纳入统一的保存与整理框架,并对关键现象保留可追溯的例证链条,研究者就更容易进行大范围的历时统计、结构演变的路径追踪以及地域差异的系统比较。对方言研究而言,若口语材料能够与音频对应,研究者在讨论音变、语调、弱化与连读等现象时就能回到原材料核验,从而减少仅凭转写而产生的误判。对少数民族语言研究而言,知识库如果能够稳定地保存口述材料、对照译注与语境说明,就能为词汇整理、语法描写、语言接触研究提供更可靠的共同材料基础,也能使不同研究者更容易在同一证据上开展对话。
知识库对跨语言比较与类型研究同样具有促进作用。中国境内语言类型多样,语序、形态、音系系统差异显著。许多理论问题若只在汉语内部讨论,往往难以看清其一般性与特殊性。知识库在总体设计上强调多语言并置,并通过较一致的整理方式增强材料的可比性,这为类型研究提供了更可操作的条件。研究者不仅可以比较不同语言对同一概念的表达方式,也可以在更大范围内比较结构选择与语义编码方式的差异与共性。更重要的是,知识库将跨语言比较建立在可追溯的材料之上,使类型概括不至于变成抽象的标签拼接,而能落实到具体用例与语境中。对于强调证据与可核验的人文学术而言,这一点意味着类型研究可以获得更坚实的经验基础,也更容易产生对理论有解释力的比较发现。
除了为研究提供材料与检验条件,知识库还可能改变学术成果的呈现方式与积累方式。传统学术成果以论文、辞书、语法书等形式出现,其优点是论述完整,但缺点是更新较慢、可计算支持能力有限,且材料与结论的连接有时不够直观。知识库的条目化整理与回溯机制,使词条、用法说明、结构归纳可以在长期维护中不断修订完善,也使不同研究成果更容易通过共享材料与共同规范而彼此衔接。研究者在知识库中增加一条可靠例证、修订一处译注、补充一条变体说明,实际上也是在公共基础设施上进行学术积累。这样的积累方式能为其提供更坚实的材料地基,并让学术共同体共享更透明的证据链条。
就应用前景而言,中国语言知识库具有明显的公共价值,尤其在方言与民族语言的记录保护方面。许多濒危语言与方言的核心问题不在于缺少研究者关注,而在于缺少可长期保存、可持续维护的高质量材料。知识库以证据层保存音视频与语境信息,以标注层提供转写与译注,并在知识层形成词汇与用法条目,这为语言记录提供了一个更完整、更可持续的载体。对社区而言,知识库不仅是学者的研究工具,也可以成为文化传承与语言教育的资源来源。知识库的建设应当把“回馈”纳入规划:材料来自社区,成果也应当以适当形式回到社区,促进语言文化的可持续传承,而不是把大众仅当作资源提供者。
在语言技术与智能应用方面,知识库同样具有现实意义。当前大型语言模型与多种自然语言处理系统,往往在英语等资源丰富语言上表现较好,而在资源不足语言上效果有限,其原因之一是高质量训练材料与评测材料缺乏。中国语言知识库如果能够在规范整理与质量控制下积累多语言材料,并形成稳定的转写、译注与词表,就能为机器翻译、语音识别、文本分析等任务提供更可靠的数据基础。尤其在少数民族语言场景中,多语种预训练模型虽然提供了起步能力,但要获得可用水平,仍需要高质量的校订样本与标准化评测集合。知识库可以在建设过程中逐步形成这类可用于训练与评测的资源,从而推动资源不足语言的技术发展不再停留在概念层面。与此同时,知识库强调可追溯,也为技术系统的可解释性提供了支撑:当系统输出某种翻译或分析结果时,可以回到知识库中的例证与条目查证依据,从而降低黑箱式应用的风险。
知识库在教育与文化传播领域也有广阔空间。对汉语教学而言,知识库可提供大量可检索的例句、搭配、语境用法与历时用例,使教学不再局限于少量教材例句。对汉语方言与少数民族语言教育而言,双语对照材料、口述故事、术语整理与场景解释都可以成为课程资源。对公众文化传播而言,知识库可支持方言地图、词源查询、俗语解释等面向大众的应用,前提是内容整理必须可靠且可追溯。更重要的是,知识库强调多模态材料的保存与对应,这使语言文化传播不止停留在文字层面,而能够通过音视频与场景材料更真实地呈现语言实践,增强公众理解与参与的可能。
在看到价值与前景的同时,知识库建设必须正视治理与伦理问题。语言资料不同于一般文本数据,它往往带有明确的主体关系与文化归属。口述材料可能涉及个人隐私与敏感经历,社区语言材料可能涉及集体知识与传统禁忌,某些仪式语言与文化内容甚至并不适合公开传播。若缺少审慎治理,知识库不仅可能引发侵权争议,更可能对个体与社群造成伤害。因此,治理伦理不应被视为附带章节,而应贯穿知识库建设的全过程,并在制度设计上形成明确的边界与责任。
首先是授权与版权问题。对录音与影像材料,应在采集阶段取得清晰的知情同意,说明资料用途、保存方式与可能的公开范围,并允许说话人或社区对公开程度作出选择。对传统故事、歌谣与仪式文本等集体文化内容,应尊重社区的决策权,在必要时争取文化管理机构或社区代表的许可,并对不宜公开的部分采取受控访问或仅供内部研究的方式。对书面文本与网络材料,应严格区分公共领域、开放许可与受版权保护材料;对无法公开的材料,可考虑仅提供索引与统计信息,或在合理使用范围内提供少量例证。预先说明并明确材料使用边界,不仅能减少后续纠纷,也能让知识库在开放共享与合法合规之间取得更稳妥的平衡。
其次是隐私与敏感内容处理。口述材料常包含个人身份信息、家庭经历、医疗宗教等敏感内容;汉语方言与少数民族语料也可能涉及群体形象、地方冲突或内部禁忌知识。知识库应当建立基本的匿名化与脱敏策略:个人可识别信息与语料本身尽量分离保存,公开发布时对必要信息作模糊化处理。对涉及敏感主题的片段,可设置访问权限,限制为授权研究者使用。对社区明确认为不宜公开的材料,应尊重其意见,采取不公开或仅在社区内部使用的策略。更重要的是,应建立撤回机制:当说话人或社区提出撤回请求时,应有明确流程处理,并在版本管理中留下记录,以体现对数据主体的尊重。
再次是大众参与与回馈机制。知识库若要在少数民族语言与濒危语言领域长期运行,不能停留在采集、入库、发表的单向模式,而应把大众视为共同建设者。实践上,这意味着在采集与整理过程中吸纳母语者参与转写、译注与校订。在成果发布时提供面向大众的可用版本,例如双语故事集、学习词表、教学资源包等。在技术应用层面,避免将大众语言数据用于与其利益无关甚至可能损害其利益的用途。大众参与不仅是伦理要求,也直接影响数据质量:母语者对语境与细微意义的把握,是外来研究者难以替代的。把大众纳入知识生产过程,既能提高资料可靠性,也能增强项目的正当性与可持续性。
最后是开放共享与风险控制之间的平衡。知识库作为公共基础设施,理应尽可能支持学术共享与社会使用,但开放并不意味着无差别公开。更稳妥的方式是分级开放:对版权清晰、授权允许、无明显风险的材料开放;对存在版权或敏感风险的材料实行受控访问;对具有明显文化禁忌或可能造成伤害的材料不公开或仅保留汇总性信息。与此同时,知识库应提供清晰的使用条款,说明允许的使用范围、引用方式与禁止行为,并建立违规处理机制。对与技术企业合作的情形,更应明确数据用途、训练范围与收益回馈,避免出现“数据被抽取、社群无收益”的不公平局面。只有把这些规则写清楚并能执行,知识库的开放才不会变成对弱势语言社群的二次剥夺。
总体而言,中国语言知识库不仅为语言研究提供了可检验的证据与长期积累平台,也为方言及民族语言的保护传承与数字可用性拓展了应用前景。在坚守授权合规、隐私保护与分级开放等伦理边界的前提下,知识库方能成为真正可信、可用、可持续的学术基础设施,进而为夯实人文学术根基、促进语言文化传承与技术发展公平性提供坚实支撑。
(注:文章公众号推文中的参考文献及注释省略,详见纸刊)
THE END
文章刊于《云南师范大学学报》
(哲学社会科学版)
2026年第2期
一审 | 和智利 二审 | 黄龙光 三审 | 熊理然
一校 | 王浩禹 二校 | 和智利 三校 | 朱碧波
云南师范大学学报(哲学社会科学版)不收取任何形式的审稿费、版面费。
云南师范大学学报(哲学社会科学版)唯一投稿途径为云南师范大学官网学报编辑部:
https://qkgj.ynnu.edu.cn/jwk_xb/。