当AI开始读古籍,难的究竟是什么?
2026-06-11 18:00 北京
编辑手记|读古籍这件事,AI还要慢慢学
近日,EvaHan2026古籍多模态OCR国际评测在西班牙马略卡岛举行的语言资源大会(LREC 2026)相关研讨会上落幕。该评测由中国古籍保护协会古籍智能开发与利用专委会指导,中国人工智能学会语言智能专委会、江苏省人工智能学会自然语言处理专委会、中国民族语言学会语言资源与计算人文专委会及中华书局古联公司协办。古联公司参与了相关支持工作,并提供了评测数据集。
从评测结果看,当前古籍智能处理在文字识别上已具备一定基础,但版面分析、双行夹注处理、异体字和长尾罕见字识别等,仍是影响应用的关键难点。
这再次说明,古籍OCR并不是把通用OCR方法简单移植过来就能奏效的。与现代印刷文本相比,古籍页面往往同时包含正文、夹注、眉批等多种信息层次,阅读顺序复杂;同时,异体字、俗字、生僻字大量存在,不同文献在字形风格、版式结构和图像质量上的差异也十分明显。这些因素叠加在一起,使得古籍OCR所面临的挑战远超一般文本识别。
因此,古籍OCR要解决的,从来不只是“把字认出来”这么单一的任务,而是一整套相互关联的问题:页面结构如何分析,文本区域如何定位,复杂字形如何识别,以及识别结果如何校对、组织与利用。只有在这些层面形成系统性的解决方案,古籍OCR才真正具有实际价值。
part 1
先把页面看明白
提到OCR,大多数人先想到“识字”,但对古籍来说,更关键的一步往往是先把页面看明白。
一页古籍里,哪些是正文,哪些是双行夹注;天头地脚有没有批注;是通栏、双栏还是三栏;大小字如何区分,内容顺序怎样恢复等等。这些如果判断错了,后面的识别结果就很难直接用于整理和利用。
正文、批注、夹注混排古籍页面示例
多栏古籍页面示例
因此,版面分析并非简单切块就能完成,而要依赖真实语料进行持续训练和优化。从这次评测也能看出,版面分析仍然是当前古籍OCR领域的共性难点。
part 2
版刻相对成熟,
手写取得突破
在古籍OCR里,版刻文献仍是最基础、也最需要优先做稳的场景。古联OCR系统于2022年上线以来,版刻OCR算法一直在持续迭代:一方面提升识别稳定性和场景适应性;另一方面扩充识别字库,增强对异体字和复杂版面的覆盖能力。
目前,版刻OCR识别效果较上一版进一步提升,识别准确率已普遍超过99%。对版式相对简单的版刻文献来说,这项能力已进入较高可用阶段,能够较好支撑后续整理、检索和利用。而对于表格、家谱等复杂结构的版刻文献,仍在继续打磨中。
版刻OCR优化重点
相比之下,手写OCR所面对的书写场景更为复杂。无论是稿本、抄本,还是页面中的批校、书前的题跋,都呈现出高度个性化的书写特征。不同书写者在用笔习惯、字形结构等方面的差异显著;同时,文字大小不一、勾改、涂抹等情况也十分常见。这些因素相互叠加,使得文本形态更加多变,其识别难度往往远高于版刻文献。
手写OCR页面情况复杂
围绕这一问题,古联近年持续开展手写OCR训练,训练语料覆盖稿抄本、书法作品、手写信札、仿古籍形制抄写文献等多种材料,并尝试借助AIGC补充部分训练样本。从目前测试结果看,稿抄本等竖排手写体文献识别准确率已达到95%,说明这项能力已具备一定应用基础。但行草书等更高难场景,仍是下一步重点优化方向。
手写体OCR训练数据
part 3
古文字识别,
光靠大模型还不够
古文字识别的难点不只在图像质量或版面复杂,更在于字形系统本身与后世常见汉字已有明显距离。很多古文字字形与今天熟悉的楷体结构差别很大,模型面对的不是简单“看清楚”,而是跨越历史演化阶段去建立对应关系。
与此同时,古文字OCR还普遍面临标准字体不足、字库不完备、编码体系不统一等问题,这使训练数据整理、人工标注和模型建构都更困难。也因此,古文字识别并不是通用大模型能力增强后就能自动解决的问题,真正起作用的仍然是领域数据积累、专项训练和持续整理。
目前,古联也在推进隶书OCR相关工作,持续积累数据资源并完善训练基础。然而,这一方向距离形成稳定、可规模化部署的工程级应用,仍有一定差距。
隶书OCR训练数据类型
part 4
OCR的目标,
是进入整理流程
https://newcollation.ancientbooks.cn/index
古籍OCR如果只停留在“识别率更高一点”,其实还不够。真正进入整理流程时,更关键的是:复杂图像能否处理,识别后的文本能否继续用于校对、标点等整理工作,能否切实减轻人工负担。
因此,古联公司近年的推进,不只是优化算法,也在同步完善OCR之后的整理支撑系统。古籍智能整理平台已支持版式校对、分列校对、折校、单字聚类校对等多种方式,并增加了异体字替换、字图保留、自动标点辅助等功能,使OCR结果能够更顺畅地进入后续整理流程。
古籍智能整理平台
分列校对、单字聚类校对、版式还原校对示例
总体来看,古联古籍OCR已取得阶段性进展:版刻OCR进入较高可用阶段,手写体OCR实现阶段性突破,古文字识别等高难方向仍在持续推进。
古籍OCR不会随着技术发展而自然成熟,仍需贴着真实场景,一页一页去训练,一个问题一个问题去打磨。只有这些基础能力真正建立起来,古籍数字化的后续工作才会有更坚实的起点。
对古籍智能整理平台和OCR系统感兴趣的伙伴欢迎联系我们~
联系方式:张老师,546343035(QQ)
中华经典古籍库
微信号:jingdianguji
丰富自身文化修养
从关注一个好的公众号开始