摘要:国家语料库是重要的语言文化资源。文章立足国家语料库的研制实践,介绍其建设背景与建设目标;从语料采集、加工标注、分析工具研制等层面阐释其设计理念;说明其分析工具的检索、统计、搭配和对比等功能。国家语料库以共建共享为核心理念,致力于打造类型多样、质量可靠、功能丰富、开放共享的国家级语言资源基础设施,为推进语言文字信息化发展、推动语言文字高质量发展贡献力量。
关键词:国家语料库;设计理念;共建共享;分析工具
一、引言
语料库是依照特定语言学原则系统收集的自然语言文本集合。大规模语料库的建设,能够为客观揭示语言规律提供坚实的实证数据支撑,是现代语言学及相关学科赖以发展的基础资源。张伯江和张永伟(2023)指出,许多国家都将语料库作为重要的基础工程进行建设。如英国、美国和韩国分别于 20 世纪 90 年代先后启动或筹划了国家语料库的建设,俄罗斯、匈牙利、泰国、爱沙尼亚等国也相继建成并发布了各自的国家语料库。
我国虽尚未建成以 “国家语料库” 正式命名的大规模语料库,但已有诸多优秀语料库,如国家语委现代汉语通用平衡语料库、北京大学中国语言学研究中心 CCL 语料库(以下简称 “CCL 语料库”)、北京语言大学 BCC 现代汉语语料库(以下简称 “BCC 语料库”)等,在语言教学与研究中发挥着重要作用。这些语料库从数据采集、加工处理到分析工具的研制,均由单一机构完成。相比之下,国外的 CQPweb、SketchEngine 等平台在语料库的共建共享方面做了大量探索。它们通过开放或提供分析工具,支持多语言语料库的汇聚与应用,有效满足了语言教学与研究对语料库的多样化需求。
2021 年,国家语料库(ChineseNationalCorpus,CNC)建设被纳入中国社会科学院 “十四五” 规划项目,同年,中国社会科学院语言研究所创新工程设立了 “国家语料库建设” 项目,旨在建设服务于语言教学与研究的国家语料库。该语料库的建设充分吸收了语料库语言学的最新成果,确立了全新的建设目标:提供多文种、多媒体、多模态且安全可靠的语言资源,搭建功能丰富、易于使用、合作共享的应用平台。在后续的研发与功能迭代中,国家语料库先后又获得多项课题资助,目前已成为中国社会科学院(中国社会科学院大学)语言学重点实验室 “国家语料库一体化平台建设与应用研究” 项目的重要组成部分。本文将梳理国家语料库的设计理念,并详细说明其分析工具已经实现的功能。
二、国家语料库的设计理念
国家语料库作为国家级语言资源的基础设施,其设计理念的科学性直接关系到建库目标能否顺利实现。我们从语料采集、加工处理、分析工具研制三个方面梳理国家语料库的设计理念。
(一)语料采集的理念
1. 坚持高质量的语料标准
语料质量是语料库的基石,直接决定了语料库的应用价值。尽管各个子语料库(以下简称 “子库”)的建设目标不尽相同,但所收录的语料都应具备高度的代表性、准确性及可溯源性。其中,代表性要求入库语料在时间、地域、语域及文体等维度的分布上,能够客观、均衡地呈现目标语言变体的实际面貌;准确性要求语料能最大程度地排除人为错误,忠实保留语言的原本状态;可溯源性则要求每条语料都有清晰可靠的来源,便于核查。
此外,国家语料库还实行动态的质量监管,定期排查语料,及时剔除、隔离低质量或存在潜在风险的语料甚至子库,确保语料库的可靠性与安全性。
2. 推动资源共建与开放共享
共建共享是国家语料库的核心设计理念。国家语料库采用半开放架构,希望能打破单一建设主体的局限,实现语料资源的规模化、共享化与可持续化发展。中国社会科学院在建设基础语料库的同时,也面向符合条件的机构和个人开放,积极吸纳具备特色且高质量的语料库入驻,将其整合后纳入国家语料库体系,形成统一管理、多元支撑的国家级语言资源平台。例如,对外经济贸易大学刘云教授主持开发的 “北京话历时复合语料库(一期)” 已作为首批优质资源成功接入。在多方参与的建设过程中,国家语料库充分保障各子库的知识产权与学术权益,提供完善的技术服务与宣传推广,有效降低合作机构的建设和运营成本,促进语料库的共建共享,提升国家语料库的整体覆盖范围、学术价值和社会服务能力。
3. 支持多媒体多模态语料
作为国家级语言资源枢纽,国家语料库始终坚持全面、多元的语料采集与整合理念,在重点采集电子文本语料的基础上,全面兼容并支持多媒体多模态语料,充分发挥两类语料的优势,为各类语言教学与研究提供全方位支撑。电子文本语料时间跨度长、易于采集、标准化程度高、便于计算机处理,适合开展大规模的词频统计和搭配分析,是语料的基础形式。相比之下,多媒体多模态语料出现时间晚、采集困难,但能够记录更丰富的话语时空信息,生动还原真实的交际场景,为话语分析等研究提供支持,完成电子文本语料无法实现的研究。因此,国家语料库对两类语料的兼容既保障了基础语言研究的高效开展,又实现了语料资源的多元化拓展,满足了前沿研究的多样化需求。
(二)语料加工处理的理念
1. 生熟语料的兼容与互补
除语料形态的多元兼容外,在语料加工处理的核心议题上,国家语料库也秉持灵活开放的原则。语料是否需要切分标注(即 “生” 与 “熟” 的取舍),一直是汉语语料库建设的核心议题,影响着分析工具的功能设计与技术实现。以国内两大知名语料库为例,CCL 语料库是生语料库(詹卫东等 2019),BCC 语料库则以熟语料为主(荀恩东等 2016)。熟语料有利于开展基于词法分析、句法分析结果的研究,但会带入特定语言学理论的预设,也难以避免切分标注的错误。生语料能客观保留语言文本的原始面貌,但难以直接支持与词法、句法有关的研究。
国家语料库充分兼顾不同研究场景的需求,实现了生语料和熟语料的兼容。由子库建设者确定是提供生语料或熟语料,还是同时提供生、熟两个版本的语料。这提升了国家语料库的包容性与实用性。
2. 词法与句法信息的一体化标注
当前,汉语语料的加工多停留在分词与词性标注等词法层面。尽管依存句法和成分句法分析技术已趋于成熟,开源可用的工具也很多,但受限于复杂的检索逻辑与较长的响应时间,多数现有大规模语料库系统仍侧重于词法信息的检索与分析。(张永伟等 2022)针对这一现状,国家语料库在架构设计上采取了前瞻性布局,虽不提供词法分析、句法分析的具体工具,但在架构设计上预留了充足的适配空间,支持对电子文本语料进行词法分析、依存句法分析、成分句法分析等,从而能够及时吸收计算语言学关于电子文本加工处理的最新成果,助力汉语语料分析向更深层次推进,进一步提升国家语料库的学术价值与应用潜力。
3. 以字词为基本单位的开放标注
立足于汉语研究的多元需求,国家语料库在支持词法分析与句法分析的基础上,进一步兼顾各类特殊标注需求。比如多音字的读音、多义词的义项等信息,虽不属于传统的词法标注范畴,却能更好地支持相关语言研究。为此,国家语料库秉承开放标注理念,支持以字或词为基本单位进行多样化标注,赋予子库建设者充分的自主空间 —— 子库建设者可根据研究需要直接添加新的标注。这种设计使得国家语料库无需修改底层代码,即可顺利接入包含特殊字词标注的子库,在降低子库接入技术门槛的同时,又进一步拓展了国家语料库的标注维度与应用场景,充分彰显其开放包容的建设理念。
4. 元信息的个性化与多标签标注
国家语料库充分重视元信息的管理与应用。元信息(metadata,又称元数据)即对语料进行描述、解释、定位与管理的附加信息,本质是关于数据的数据。典型的元信息包括字体、样式、标题、开头、结尾、文献信息、作者信息、修正记录、添加日期等。(Sinclair2007,转引自冯志伟 201344)语料库类型的差异决定了语料元信息构成的不同,如报纸、法律法规、文学作品的元信息各有侧重。为此,国家语料库须支持元信息的个性化定义,允许语料库建设者自定义元信息。
国家语料库将标签(tag)作为特殊的元信息,用于描述语料的各类信息。针对传统语料库树形分类的局限,国家语料库支持多标签标注,将分类作为标签内容,语料库建设者可以为语料添加任何相关的元信息,如为单篇语料添加 “当代”“文学”“小说” 等多个不同层级的标签。这样,使用者就可以通过单个标签或标签组合灵活精准地筛选语料,从而最大程度地挖掘现有语料库的价值。
(三)语料库分析工具的设计理念
1. 功能丰富
在语料分析工具的设计上,国家语料库同样立足研究需求,对标前沿标准。张永伟和吴冰欣(2023)梳理了第四代语料库分析工具应该具备的核心功能,并在此基础上分析了国内外相关工具的支持现状。文章指出,语料库分析工具应具备用例查询、搭配查询、频次统计、对比等核心功能。其中,用例查询可细分为基本查询、多条件查询和针对语料库的查询;搭配查询以共现搭配和基于语法关系的搭配为主;频次统计主要统计词频表和词簇频次表;对比功能则包含同一语料库中不同语言现象的对比和同一语言现象在不同语料库(或子库)中的对比。
国家语料库分析工具在宏观设计上,明确以实现上述四大核心功能为目标,并注重打通各项功能间的关联,提升使用的便捷性。比如,在查询语料时,能便捷地统计查询结果的频次信息;在查看搭配详情时,也能便捷地调出当前搭配的具体用例。需要指出的是,单个语料库最终向用户开放哪些功能,仍需由语料库建设者根据实际需求,通过后台配置来决定,充分兼顾了自主性和实用性。
出于版权保护和系统稳定性的考虑,国家语料库实行用户注册制,对占用较大内存和计算资源的功能设定了每日使用次数上限。
2. 易于使用
语料库分析工具的应用价值不仅取决于功能的丰富程度,也受制于功能的使用门槛。因此,国家语料库分析工具在追求功能丰富的同时,也追求易用性,使不同技术背景的使用者均能快速使用。
针对查询条件设定这一核心环节,国家语料库配备图形化、交互式的查询条件生成工具,让使用者无需掌握复杂的查询语言,只需通过点击选择、填写简明表单即可完成条件设置,分析工具可自动将这些操作结果转换为后台可执行的查询指令,从而确保非技术背景的使用者也能快速上手。
同时,国家语料库分析工具的查询语法具备较高的兼容性。比如,使用者在 BCC 语料库中完成检索后,若期望在国家语料库中执行同样的检索,便可直接粘贴 BCC 检索式。分析工具能够自动解析该检索式并返回相应结果。这种兼容性的设计打破了不同语料库分析工具之间的操作壁垒,减轻了使用者重复编写检索式的负担。此外,国家语料库还提供即时、全面的用户帮助体系。通过上下文帮助机制实现即时响应,使用者在操作中产生疑问时,无需中断当前流程即可获取帮助;通过图文并茂、音视频结合的操作手册,实现内容的全面覆盖,进一步降低分析工具的学习门槛。
3. 智能化赋能
国家语料库在分析工具的迭代升级中,应积极引入人工智能技术,在丰富平台功能的同时不断优化易用性,提升用户的研究效率与使用体验。比如,支持使用者直接使用自然语言进行检索,工具能够自动解析自然语言中的核心检索意图,将其转化为后台可执行的检索指令,让非技术背景的使用者也能轻松完成精准检索。再比如,可将检索结果与大语言模型对接,实现检索结果的智能分析与深度挖掘,辅助使用者快速梳理数据并得出初步结论,提升研究效率。这种人工智能技术的引入,拓展了语料库分析工具功能的边界,让语料库从 “检索工具” 升级为 “智能分析助手”。
三、国家语料库的功能实现
目前,国家语料库已经完成一期建设,其分析工具也已发布。一期建设整体遵循了前文所述的设计理念,但受限于研发资源和开发周期,部分规划尚未完全实现。比如,智能化赋能的理念尚未实现,语料切分标注的准确性也缺乏完善的保障,相关的评测与优化工作仍在推进中。(张永伟等 2025)本部分重点阐述语料库分析工具(一期)已实现的功能。
(一)检索模块
检索模块提供了 3 种检索方式,支持语料检索范围的限定,支持设置检索结果的显示,并提供检索结果的排序、分布分析、抽样、统计和下载等功能,让使用者能更精准地查、更直观地看、更便捷地用。
1. 检索方式
检索模块提供了简单查询、模糊查询和高级查询 3 种检索方式。
(1)简单查询
简单查询采用单个输入框设计,支持字词、语料库查询语言(CorpusQueryLanguage,以下简称 CQL)语句和 BCC 检索式输入,检索模块自动判定输入类别并执行检索操作。此外,检索模块还配备了图形化的 CQL 编辑器,便于不熟悉 CQL 的使用者直接利用该编辑器生成 CQL 语句。
(2)模糊查询
模糊查询基于编辑距离计算,先找出与目标词形近的词,再以此为基础在语料库中执行检索。形近词的匹配范围可通过指定 “固定前缀长度” 和 “模糊度”(即最大编辑距离)进行控制。以检索词 “关心” 为例,若固定前缀长度设为 0、模糊度设为 1,可匹配 “关于、中心、关心、信心、人心” 等词;若固定前缀长度设为 1、模糊度设为 1,则必须包含 “关” 字,匹配 “关于、关心、关头、关切、关中” 等词。需要注意的是,模糊查询仅适用于已分词的语料库,且只能对词形进行查询。
(3)高级查询
高级查询允许使用者通过表单组合多个检索条件,各条件组件间支持 “与、或、非” 逻辑运算,但不支持条件嵌套。目前,检索模块提供的条件组件包括字形、词形、字词附加属性,以及字详情、词详情、词关系和短语详情等。具体显示哪些条件组件,由语料库建设者根据语料库的类型和标注情况自主设置。其中,词详情功能适用于已分词的语料库,可支持使用者为特定词设置词形、词性、其他附加属性及词长等匹配条件。分析工具为这些词汇特征的数据类型提供不同的匹配方式:针对数字类型(如词长),支持等于、小于、大于、介于等数值运算;针对字符串类型(如词形、词性),则支持精确匹配、包含、前后缀限定或正则表达式等匹配方式。词关系功能适用于查询条件包含多个目标词的情况,用于界定不同词语之间词汇特征的异同;短语详情功能则可用于设置短语中不同词语之间的语法关系。此外,高级查询还支持对检索对象在原文中的位置(如句首、句末、段首、段尾)及检索时是否区分大小写进行设置,从而进一步提升检索的精准度。
2. 语料过滤
语料过滤旨在通过对元信息的设置来限定语料的检索范围。针对不同语料库元信息存在差异的特点,分析工具支持对元信息的过滤条件进行定制。此外,语料过滤功能通过多过滤条件的逻辑运算及条件嵌套实现检索范围的精准限定。
(1)元信息类型
每个元信息都有特定的类型,类型不同,其匹配模式及在界面上对应的交互组件也不相同。元信息支持数字和字符串两种类型。数字如年份、时长、字数等,字符串如文体、作者、标题等。根据元信息的值是单个还是多个,又可将其进一步分为 4 种类型:数字、数字列表、字符串、字符串列表。
(2)匹配模式
匹配模式定义了过滤条件中的取值和语料元信息实际值之间的比对规则。每种元信息都对应特定的匹配模式,分析工具支持的匹配模式详见表 1:

(3)过滤条件
简单的过滤条件由元信息字段、匹配模式和条件值组成。以 “年份等于 2025” 为例,其中 “年份” 是元信息字段,“等于” 是匹配模式,“2025” 是条件值。复杂的过滤条件可由简单的过滤条件通过逻辑运算及条件嵌套组合而成,分析工具支持 “与” 和 “或” 两种逻辑运算,“非” 运算借助否定匹配模式实现。
3. 显示设置
显示设置用于控制检索结果的呈现方式,包括表格样式和内容展示等。显示设置分为全局功能设置与局部功能设置,前者作用于分析工具全局,后者仅针对检索结果页面生效。
全局功能设置包含检索结果列表的 “行距” 与 “操作列” 两项配置。行距支持 “紧凑”“适中” 和 “宽松” 三种模式;操作列则提供复选框、语法树、播放、上下文、复制等交互控件是否显示的切换。这些控件默认隐藏,使用者主动勾选后可见。需要注意的是,“语法树” 控件要求语料经过句法分析,“播放” 控件要求语料包含音视频文件,其前端是否允许勾选,取决于语料库建设者的后台配置。例如,若某语料库未提供句法分析数据,或建设者出于权限考虑不予公开,则可在后台将 “语法树” 控件设置为不可勾选。
针对检索结果的设置包含 4 个方面:
(1)显示模式:设置检索结果显示为上下文居中(KeyWordinContext,KWIC)形式或整句形式。
(2)匹配文本显示:用于设置匹配文本的具体呈现方式。支持设置是否显示字词边界(即词项间自动添加空格)及字词附加属性(词性、拼音等)的展示方式。
(3)左右侧文本显示:用于设置匹配文本两侧呈现文本时是否显示字词边界、如何显示字词的附加属性,以及左右侧文本显示的最大长度(生语料按字数计算,熟语料按词数计算)。
(4)数据列显示:用于设置检索结果列表需要展示的元信息。
4. 结果排序与乱序
检索模块支持从以下 4 个维度对检索结果进行排序:
(1)整体文本:依据完整的匹配文本、左侧文本或右侧文本进行排序。
(2)匹配文本:依据匹配文本内部的字词序列进行排序。使用者可自定义字词的排序优先级。
(3)匹配文本上下文:依据匹配文本的左侧文本或右侧文本的字词序列进行排序。使用者可设置左侧文本或右侧文本字词的排序优先级。
(4)元信息:依据一个或多个元信息的属性值进行排序,比如按年份、版名进行排序。
当设置了多个排序条件时,按条件的先后顺序依次进行排序。此外,检索结果默认按建库索引的先后顺序显示,若直接截取使用,容易导致检索结果缺乏代表性。为此,分析工具提供了单独的乱序功能,可以在不改变检索结果总数的前提下,随机打乱检索结果的顺序。
5. 结果分布
结果分布功能旨在协助使用者基于特定的元信息维度,分析检索结果的统计分布特征。分析工具支持以原始频次或百万频次作为统计指标。在可视化呈现上,不仅提供原始数据,还可将其渲染为折线图(系统默认)或柱状图。以 “希望” 一词使用的历年分布研究为例,在使用者获取包含 “希望” 的检索结果后,可将 “年份” 设定为统计维度,选取 “百万频次” 作为统计指标,通过折线图直观呈现其历年使用频次的变化。
6. 结果抽样
当检索结果过多而无法全量分析时,分析工具提供了随机抽样功能,允许使用者按特定数量或百分比抽取语料子集。同时,分析工具支持 “随机种子” 的设定。使用者输入相同的种子数值,即可获得一致的抽样结果,确保抽样结果可复现。
7. 其他功能
除上述功能外,分析工具还实现了检索结果的统计和下载功能。前者支持快速统计检索结果的频次信息,后者实现了语料的本地化导出,便于离线研究使用。
(二)统计模块
分析工具支持针对熟语料库和生语料库进行多种频次的统计,前者包括词语频次、词簇频次,后者包括字符频次、字簇频次,二者均包括通用频次。
1. 统计方式
词语频次统计主要用于分词的语料库。在检索配置方面,分析工具提供词形匹配、前 / 后缀匹配、正则表达式匹配、CQL 匹配、包含于某列表之中等 9 种匹配模式,并支持词性等附加属性的多选过滤。此外,使用者可灵活设定频次阈值。在词簇频次统计方面,分析工具仅统计由 2 至 6 个连续词项构成的词簇。在词簇频次统计过程中,支持指定词簇长度,并允许为词簇内的每个词项设置词形、词的附加属性等约束条件,指定词簇内不同成分间的属性关系(如词性异同)。针对经过成分句法分析的语料库,分析工具进一步支持名词短语、动词短语、介词短语等短语类型的限定。相较于熟语料库,生语料库的统计则主要针对字符特征,其统计规则也相对简单。比如字符频次仅支持 5 种基本匹配模式,字簇频次统计则由于缺乏句法标注信息,不支持短语类型限定。
通用频次统计模块实现了与检索模块高级查询方式的高度集成。分析工具支持对熟语料库和生语料库中基于高级查询方式构建的任意对象进行频次统计。针对上述各类统计模块,分析工具均支持按字词形及其附加属性的序列组合进行统计。
2. 显示设置
显示设置用于设置统计结果显示哪些频次及如何显示这些频次信息。可显示的频次包括原始频次、百万频次、相对频次(频率)、文档原始频次及文档相对频次(频率)等。其中,相对频次还可以设置是否以内嵌条形图的形式显示。使用者可自主选定需要显示的频次及其显示的次序。
3. 结果排序
统计模块支持基于原始频次 / 百万频次 / 相对频次、文档原始频次 / 文档相对频次和统计对象字符顺序的升降序排列。分析工具实现了多条件排序机制,允许使用者灵活设定主、次排序条件(如首选 “百万频次”,次选 “文档相对频次”),并由分析工具依条件的先后顺序进行排序。值得注意的是,相关指标列需事先在后台的 “显示配置” 中设定为可见状态,才可作为排序基准。
除上述功能外,统计模块还实现了抽样和统计结果的下载,这里不再赘述。
(三)搭配模块
分析工具为生语料库实现了窗口搭配提取,侧重于反映字符层面的共现特征;为熟语料库则不仅实现了窗口搭配提取,还实现了依存搭配提取,用于揭示词汇层面的共现规律。
1. 窗口搭配
窗口搭配模块依据线性距离检索并统计节点词邻近的搭配词。分析工具支持对当前词(即节点词)与搭配词的词形、词性及其他附加属性进行限定。此外,节点词还支持利用 CQL 语句进行定义,从而实现了对复杂语言现象共现词的检索与统计。为进一步提升检索精度,支持跨距和频次过滤参数的设置,前者将搭配词的出现范围限定在节点词前后的特定区间,后者则通过设置搭配词的最小原始频次与最小共现频次阈值过滤低频搭配。
在量化分析方面,分析工具实现了 Dice 系数、MI-Score、T-Score、MI3-Score、LogLikelihood、Minimumsensitivity、MI.log-f、相对频次、总共现频次及搭配频次等 10 种搭配强度计算公式,并支持通过搭配强度阈值的配置对搭配进行筛选。此外,分析工具既支持兼类词按相同搭配词进行计算,也支持其按不同搭配词进行计算。
在结果呈现与交互方面,分析工具提供了丰富的显示设置选项,支持显示的信息包括搭配强度、搭配词频次、搭配频次、出现在左侧的搭配频次、出现在右侧的搭配频次、位置详情等。其中,位置详情能清晰地呈现搭配词在不同跨距位置的分布情况,并以高亮形式显示其最常使用的位置。在结果排序方面,支持按搭配强度、搭配频次、搭配词频次等指标进行排序。此外,同检索模块类似,窗口搭配模块也实现了过滤、抽样及下载等功能。针对生语料库的窗口搭配模块与针对熟语料库的基本一致,仅在条件设置上更为简单,这里不再赘述。
2. 依存搭配
依存搭配模块依据词语之间的依存句法关系来提取搭配。与窗口搭配不同,依存搭配不涉及跨距的配置,增加了对具体搭配关系的配置,从而实现对特定依存句法搭配的提取。
分析工具支持 3 个方面的显示设置。首先,设置是否对搭配进行分组,设置是按词性还是句法关系进行分组,设置每个组的大小(每个组包含的搭配数)。分组后,具备相同属性的搭配项将进行聚类显示。其次,支持分布图和分布数据的显示。在非分组模式下,分析工具可提供分布图表或数据详情,支持基于元信息(如年份)揭示搭配频次的变化趋势。最后,支持结果数据列的个性化定制,涵盖搭配强度、搭配词原始频次及共现频次等。
在搭配结果交互与后处理方面,依存搭配模块提供了和窗口搭配一样的排序功能。此外,依存搭配模块同样实现了过滤、抽样及下载等功能。
(四)对比模块
对比模块实现了现象对比和语料对比两种模式。前者旨在分析同一语料库内部不同语言现象间的差异,后者则侧重于考察特定语言现象在不同语料库间的差异。限于篇幅,本节仅针对对比模块特有的功能展开论述。
1. 对比项的构建
现象对比支持两组不同语言现象的输入,语料对比支持两个语料库(或经特定元信息过滤生成的子库)的选择。需要指出的是,在语料对比时,特定的语言现象可映射为一个或多个具体的对比项。例如,“制定” 仅映射为单一的对比项;而基于前缀规则设定的 “以‘制’开头的词”,则可映射为包含 “制定”“制订”“制作” 等在内的多个对比项。
2. 统计显著性算法
在量化计算层面,对比模块基于频次计算对比项之间的差异,实现了卡方检验(ChiSquareTest)和对数似然检验(Log-LikelihoodTest)两种统计显著性检验算法。
3. 显示设置
对比模块基于两种数值数据进行对比,一是对比项的频次,二是对比项搭配词的频次。
现象对比子模块提供两种数据呈现,一种包含对比项及其频次信息,另一种包含对比项的搭配词、共现频次、显著性信息等。对于前者,分析工具支持进一步按某个元信息进行分布对比。以 “制定” 与 “制订” 的辨析为例,使用者可设定元信息 “年份” 为统计维度,考察二者频次的历时分布差异。
在语料对比子模块上,对比结果主要包括两种类型的信息:一种是对比项及其在不同语料库中的频次、显著性信息;一种是搭配词及其在不同语料库中的搭配频次、显著性信息。
在对比视图交互中,分析工具支持对比项的便捷检索,便于使用者查看对比项在语料库中的具体用例。此外,分析工具同样实现了对比结果的排序、下载等功能。
(五)语料库管理模块
前述的检索、统计、搭配与对比模块共同构成了面向用户的系统前台应用层,而语料库管理模块则属于系统的后台维护层。该模块的核心业务主要涉及底层语料库增加、更新、配置与删除,以及语料库索引的建立、更新与删除等,为前台应用层功能的顺畅运行提供支持。
四、结语
目前,国家语料库已完成一期建设并投入运行,具备了较为完备的语料分析功能,基本能够满足语言教学与研究的多样化需求。随着国家语料库建设的不断推进,分析工具的功能还将持续迭代,但其核心设计理念保持稳定。同 CCL 语料库、BCC 语料库等相比,国家语料库尚处于起步阶段,仍有许多工作亟待完善。接下来拟从以下五个方面开展二期建设:一是吸收用户反馈,完善分析工具功能;二是探索智能化赋能;三是实现对多语平行语料库的支持;四是为多媒体多模态语料库提供更多支持;五是持续推进基础语料库的建设。
国家语料库自规划之初,便确立了共建共享的设计理念,诚挚欢迎持有特色语言资源的机构或个人合作共建,也欢迎已有的高质量语料库入驻。我们将持续提供稳定的技术支持,建立健全语料安全管理机制,切实保障语料库建设者的正当权益,并适时开展语料库的使用培训与宣传推广。希望在国家语料库的建设框架下,多方通力合作,真正实现共建共享,共同为加强数字中文建设、推进语言文字信息化发展、推动语言文字高质量发展贡献力量。