普通视图

Received yesterday — 2026年6月15日

大社科讲坛·信管讲坛468期 | “人工智能在数字人文服务中的应用”

2026年6月14日 13:45

2026-06-14 13:45 广东

讲座信息

主题:AI in Digital Humanities Services 人工智能在数字人文服务中的应用

时间:2026年6月16日 14:30-16:30

地点:信息管理学院A108

讲座内容:讲座将讨论探索图书馆角色的扩展(Expanding role of librarians),核心AI技术的应用 (Core AI applications),新兴服务模式 (Emerging service models),国际视角(Global perspectives),挑战与未来方向 (Challenges and future direction)。

主讲人:阮炼 美国伊利诺大学香槟分校(UIUC)伊州消防服务培训学院图书馆馆长、UIUC信息学院兼职研究教授

主讲人简介:美国伊利诺大学香槟分校(UIUC)图书信息学博士,现任伊大伊州消防服务培训学院 (IFSI) 图书馆馆长和该院国际项目负责人,并任伊大信息学院 (iSchool)研究教授,担任多项州及国家课题项目首席研究员, 出版过多部学术论文专著。曾任美国华人图书馆员协会(CALA)主席及执行董事长,担任国际图联信息素养常设委员会和国际图联图书馆理论与研究常设委员会成员等多个职务。她领导的图书馆连续三年获得美国国立博物馆和图书服务学院最佳博物馆和图书馆国家勋章提名。她获得的奖项包括伊大校长奖、华人图书馆员协会会长奖、华人图书馆员协会杰出服务奖、华人图书馆员协会纪念冯张美玲博士杰出图书馆领导奖、伊州年度最佳学术图书馆员、伊州消防队员协会最高荣誉奖等,并被评为伊大建校150周年来最杰出的150位女性之一。

主持人:唐琼 教授、副院长

欢迎感兴趣的师生参加!

内容来源:中山大学InformationWorld

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

Received before yesterday

转载 | 景军 余成普 尹书山:在人工智能时代建构中国哲学社会科学标识性概念的急迫性

2026年6月12日 17:05

2026-06-12 17:05 广东

近日,中山大学人文社会科学研究院特聘教授景军教授和中山大学社会学与人类学学院余成普教授、北京大学人口研究所博士研究生尹书山共同合作的论文《在人工智能时代建构中国哲学社会科学标识性概念的急迫性》在《浙江社会科学》2026年第5期中发表。现谨将此文转载推出,以飨读者,呈现其最新学术思考与研究洞见。

 作者简介 

景  军

景军,清华大学社会学系荣休教授、中山大学人文社会科学研究院特聘教授,国家级重大人才工程项目入选者,国务院“政府特殊津贴专家”,长期从事医学人类学、老龄健康等领域的研究,在社会学、人类学、民族学等领域具有重要的国际影响力,多次推动相关领域学术前沿的发展。

余成普

余成普,安徽金寨人,现任中山大学人类学系教授、博士生导师,中山大学社会学与人类学学院院长、中山大学医学人文联合研究院副院长、中山大学大湾区人文共同体省级重点实验室副主任,兼任中国社会学会常务理事、中国人类学民族学研究会常务理事、中华预防医学会行为健康专业委员会常务委员、广东省民族宗教学会副会长、广东省社会学会副会长等,入选国家重大人才工程。主要从事医学人类学和医学社会学研究,聚焦于血液捐赠、器官移植、慢性病及公共卫生等领域。

尹书山

尹书山,北京大学人口研究所和牛津大学人口老龄化研究所联合培养博士研究生,研究方向为社会老年学。

正文

中国哲学社会科学自主知识体系建设亟须把握人工智能技术带来的具有划时代意义的历史机遇。习近平总书记在哲学社会科学工作座谈会上的讲话中谈到,“要善于提炼标识性概念,打造易于为国际社会所理解和接受的新概念、新范畴、新表述,引导国际学术界展开研究和讨论。”(习近平,2016,第24页) 在人工智能引发知识生产发生深刻变革的背景下,这一目标的急迫性骤增,同时面临一次意义重大的机遇。对这一机遇的把握有可能成为中国社会科学自主知识体系建设更上一层楼的关键。2025年4月25日在中共中央政治局第二十次集体学习时,习近平总书记强调,面对新一代人工智能技术快速演进的新形势,要充分发挥新型举国体制优势,坚持自立自强,突出应用导向,推动我国人工智能朝着有益、安全、公平方向健康有序发展。①习近平强调,人工智能可以是造福人类的国际公共产品。要广泛开展人工智能国际合作,帮助全球南方国家加强技术能力建设,为弥合全球智能鸿沟作出中国贡献。②目前拉动人工智能前沿技术挺进的两驾马车分别来自中美两国。2025年上半年,中国生成式人工智能用户规模达到 5.15亿人,较 2024年底增多 2.66 亿人。2025 年下半年,美国大语言模型 ChatGPT 的全球每周活跃用户数量超过 8亿。2025年一年间,中美两国生成式人工智能模型多次交替领跑,国产DeepSeek-R1模型一度追平美国顶尖模型。美国在人工智能前沿模型和高影响力专利数量上占优,中国则在论文发表量、引用量、专利产出量以及工业机器人装机量方面处于领先地位。就全球前100篇高引用率人工智能论文而言,中国学者发表的人工智能论文从2021年的33篇升至2024年的41篇。(Stanford Institute for Human-Centered Artificial Intelligence,2026)

然而就涉及人工智能的社会科学研究而言,中国学界仍然处在追赶阶段。一项文献计量学研究显示,根据对2013年到2022年通过各种语言发表的19408篇高引用期刊文章、述评、通讯、数据分析、图书章节、会议论文的统计分析,全球社会科学界针对人工智能的研究主要出自10个国家,其中美国和6个西方国家的学者贡献占50.21%,中国学者的贡献是13%。细而言之,美国学者的贡献达到 20%,中美学者的贡献合计为 33%,其他 6个西方国家的学者贡献合计为 30.21%,其余的贡献来自包括印度和俄罗斯在内的其他国家。(Prieto-Gutierrez et al.,2023)

对人工智能社会科学研究状况的判断,除了考虑学术出版物数量,还须考虑其他方面。其中一个重要的方面就是标识性概念。就此而言,中国学界也处在追赶阶段。标识性概念的提出需要基础研究作支撑。美国政府对人工智能社会科学研究的经费支持,分别来自美国国家科学基金会、美国国家健康研究所、美国劳工部、美国联邦贸易委员会。美国私人基金会,尤其是麦克阿瑟基金会、福特基金会、开放社会基金会、盖茨基金会、梅隆基金会、奥米迪亚网络慈善投资公司,也为人工智能社会科学研究提供了不少经费。美国政府机构和私人基金会对人工智能社会科学研究提供经费支持的原因主要在于三种担忧:一是对个人隐私保护和数据安全的担忧,二是对社会偏见和种族歧视的担忧,三是对失业问题和就业困难的担忧。这种取向的经费支持就范围而言或许显得过于狭窄,却是讲求轻重缓急的抉择。相比之下,中国社会科学界围绕人工智能开展的研究,经费支持主要来自国家。除了各省、自治区、直辖市社科项目管理部门针对人工智能研究提供的大批经费,截至2026年5月15日,国家社会科学基金先后支持了566个属于社会科学门类的人工智能研究项目。以国家社会科学基金2024年至2025年批准的11个社会学项目为例,其主题分别包括:人工智能与心理学的交叉与共构、人工智能时代的中国青年决策、医用人工智能工具的社会许可、人工智能替代劳动力恶化重构工作岗位的社会风险、人工智能赋能社会救助的机制、人工智能时代的医疗职业和医疗实践变革、大语言模型生成内容嵌入的社会偏见、青少年社交障碍动态智能监测、罕见病患者开源社区、人工智能视角下的乡村社会调查研究,以及人工智能系统对社会价值观的影响。其中有关人工智能重构劳动关系、大语言模型生成社会偏见、智能推荐系统影响社会价值观的课题,尤其体现出研究者对社会焦虑的关注。此类兼有世界性和本土性意义的社会焦虑集中体现在人工智能隐喻里面,让我们以如下一组人工智能隐喻举例说明。

“偏见放大镜”指的是AI模型在训练过程中过度依赖自身或同类系统的数据,原有数据的错误和模型生成的错误经过不断复制,导致错误被放大,其中包含被放大的社会偏见。“数字幽灵”特指生者缅怀逝者的数字人。在虚拟空间让死者复活的技术风险是生者对代表逝者的机器产生情感依赖,且不说有人可能通过编程让数字人干扰他人或戏弄生者。“认知卸载”用于描述用户因对大语言模型的过度依赖而丧失学习所需要的独立思考能力。“网络投毒”是说攻击者向训练数据注入虚假或有害的信息,使模型无须任何触发词就开始将其当作事实重复输出。另有一种创建大量网页故意公布恶意信息的投毒做法,模型提取这些网页信息后有可能重复虚假的、半真半假的、泄露隐私的恶意信息。“你的语言权”一说来自关于AI传递出的新型八股正在侵蚀人类大脑的观点。“声音盗窃”关乎一系列人工智能模拟人类声音的法律案件,从一位中国医生推销蛋白棒的造假视频走红网络而被本人打假开始,到多位中国配音演员的声音被人工智能工具克隆盗用并广泛使用,再到犯罪分子利用模拟声音的人工智能设备诈骗老年人的刑事案件。“AI押题”是说一种打着人工智能幌子的诈骗行为。2025年高考前,一些社交平台账号和培训机构宣称,它们研发的人工智能工具可以准确地模拟高考考题,以此作为虚假营销的引流噱头,高价出售所谓智能押题试卷。“思想抄袭” 指的是部分大语言模型在生成论文时,擅自挪用他人的研究方法或核心观点却未标注来源,属于只剽窃学术思想而不照搬原文表述的抄袭行为。“AI垃圾论文”是一些人利用大语言模型撰写学术文章。近一年来,中国学术界出现不少被质疑用人工智能工具生成的期刊论文。2025年4月14日,《社会科学辑刊》通过公众号公布“拒绝 AI创作的严正声明”时披露,近期发现多篇投稿存有“AI生成或辅助创作”现象,编辑部对此类行为予以严厉谴责并声明如下:一、对一经查实使用 AI 工具生成的学术论文,将退稿并把作者列入黑名单;二、强化审稿机制,采用技术检测与人工审查相结合的方式,杜绝 AI创作的学术不端行为;三、呼吁学术共同体自律,抵制技术滥用,对违规行为采取零容忍态度。这个声明提到的“技术检测”是指“AI打假”技术。在学术领域中,这种技术基于“智能生成内容”(AIGC) 检测模型 (比如中国知网提供的AIGC检测模型),可以帮助期刊编辑和大学教师检查一篇或多篇论文是否掺杂人工智能生成内容,其反馈是生成内容的特征值和字符数。我们利用中国知网AIGC模型做过两次实验。一次要求 DB 大语言模型帮助检查一篇学术文章是否掺杂 AI生成内容,其反馈是:AI特征值为0.0%,AI特征字符数为0。另一次是先让DB大语言模型改写那篇文章,再让中国知网AIGC模型检查经过改写的文本,其反馈是:AI特征值等于28.3%,字符特征数共有7111个。导致这种结果的主要原因是那篇八千多字的文章被改为两万五千余字,被改写的内容大多是生硬对齐的、相当夸张的、望文生义的,这不得不令教育界人士感到焦虑。

以上人工智能隐喻揭示的集体焦虑,导致从个人到社会到国家产生对“真实对答”“网络疫苗”“天使式智能”“第零定律”“数字主权”“主权智能”“数字去美国化”等的诉求。其中“网络疫苗”特指识别深度造假的应用系统,比如标识视频是否经由 AI 制作的提示系统。“第零定律”从机器人伦理出发关涉AI伦理。科幻作家艾萨克·阿西莫夫 (Isaac Acimov) 曾在一部小说中提出“机器人三定律”:第一定律禁止机器人伤害人类;第二定律要求机器人服从人类,除非对人类的服从会违反第一定律;第三定律要求机器在不与其他两条定律相冲突的情况下保护自己。“第零定律”排在这三个定律之前,是要让机器人控制机器人,用伦理算法和向善模型制约有害人类的 AI 系统。“数字去美国化”则针对“美国人工智能殖民主义”以及美国“双头利维坦”难以控制的现实。前者来自斯坦福大学人工智能政策研究中心主任 Marietje Schaae (玛丽切·斯哈克) 2025年8月20日在英国《金融时报》发表的一篇文章,后者见于突尼斯裔法国女学者阿斯玛·姆哈拉 (Asma Mhalla) 2025年出版的专著《赛博朋克:新极权体系》。姆哈拉在这本书中提到的“双头利维坦”是指美国大型科技公司在为人工智能殖民主义编程,建构一种新集权主义制度,巩固美国数字帝国的霸权。

兼有世界性和地方性的集体焦虑或许应是中国社会科学研究者在人工智能时代提炼标识性概念的方向之一。然而检视当前中国社会科学的发展现状即可发现,大量研究仍习惯于套用西方理论概念来裁剪中国现实,同时机械地借用舶来概念解释具有世界性的问题。这种学术概念意义上的依附性就是习近平总书记提到的中国哲学社会科学“有理说不出、说了传不开”(习近平,2016,第24页) 的困境之所在。在人工智能时代,这一困境得以放大的可能性,既是一个关涉中国学术自主性的问题,也是一个关乎人工智能治理的世界性问题。毕竟中国政府发布的《人工智能能力建设普惠计划》列明了面向发展中国家的多项合作意愿:共同挖掘人工智能赋能绿色发展等潜力,共建人工智能开源开放社区,保障和提高妇女和儿童的数字权益,共同开展人工智能语料建设,以及促进和完善数据基础设施等。①以上多项“愿同”在于打破人工智能时代的“硅基帷幕”,突破西方中心主义的知识编码系统,以中国研发和使用人工智能的经验为全球人工智能治理贡献智慧。这种智慧贡献不仅需要科技知识的输入,还有必要溢满社会科学思想养分,其中包含标识性概念。

随着人工智能技术的更新换代,西方学术界提出一系列具有社会科学意义的标识性概念,比如“算法社会”“批判性数据研究”“信息茧房”“版权洗钱”“代理歧视”“数据近亲繁殖”“数字多巴胺攻击”“提示词防护盾”“模型生存本能”。与此同时,一些发展中国家的学者提出“数字殖民主义”与“亡灵政治”等形影相随的见解。“亡灵政治”这一概念来自喀麦隆历史政治学家约瑟夫·阿基勒·姆毕贝 (Joseph-Achille Mbembe),用于刻画“活死人世界”,且针对现代生物权力学说。法国学者福柯将现代生物权力视为对少数人群而言既有保护性亦有压迫性的双刃剑。姆毕贝却认为,世界上很多人生活在既得不到权力机构保护又受到权力机构压迫的濒死者世界。(Mbembe,2019) 一名亚裔荷兰学者借用“亡灵政治”概念,提炼出“亡灵输出”概念,以此阐述人工智能加剧全球不平等的趋势。比如,全球北方需要的数据集加工任务通过众包平台分配给在全球南方包括童工在内的廉价劳动力完成。又如,服务于全球北方国家的高耗能的数据中心在全球南方国家设立分支机构和设施基地,对当地生态环境构成严重威胁。高耗能的人工智能设施导致的气候变化和资源枯竭问题,不成比例地波及全球南方国家。(Regilme,2024) 另有三名非洲学者指出,欧洲20多个国家通过欧盟对人工智能伦理问题采用自上而下的统一原则,强调人工智能匹配欧盟价值观的重要性。相比而言,美国政府采用自下而上的方式,让地方立法机构和企业扮演监管人工智能研发和应用的重要角色。尽管如此,欧美人工智能伦理原则的一致性在于借鉴西方经典的医学伦理原则,即自主、正义、有益、不伤害。这三名学者认为,非洲国家不应效仿欧美的做法,而应运用非洲人熟悉的语言和概念思考人工智能伦理问题,共同发展出体现非洲文化精髓的人工智能伦理准则。尤其对于撒哈拉沙漠以南的非洲国家和人民而言,“人工智能乌班图原则”有可能成为这一努力的根基。在体现集体主义和互惠精神的乌班图思想指导下,非洲国家才有可能在人工智能领域中拧成一股绳,获得发言权。(Gwagwa et al.,2022)

目前中国社会科学界有关人工智能的标识性概念,在数量上仍然相当有限。在经济学界,戚聿东、朱正浩、赵志栋针对人工智能研究,提出了基于以中国理解中国、以中国理解世界、以世界理解中国、以世界理解世界的“四重理解”框架。(戚聿东等,2025) 在社会学界,邱泽奇建议把“人机互生的数智世界”作为社会学的叙述对象,强调人类智能和机器智能共同参与知识生产、创新、传播的三重范式。易言之,人类也不再是知识生产的唯一参与者,机器智能有能力且存在于知识生产之中,由此形成人机共生的格局,进而重构人类的知识生产范式。(邱泽奇,2025) 在人类学界,张小军提出的“人工智人”概念包含“二次性”和“去文化”之说。其意是指人工智能技术基于人类已有的知识、经验、文化和数据进行“二次”加工、复制、重组,这种“二次性”反过来影响人类自身,甚至使人类文化和人们的知信行被机器逻辑重塑。(张小军,2023) 更多的学者先后长期使用了“智能社会”这个概念。在中国社会科学界,“智能社会”作为“信息时代”以及“网络社会”的一种延伸性概念,已有30多年的时间。外国学者对这一概念的使用则是小心翼翼、姗姗来迟。谷歌学术平台的文献检索结果显示,以“智能社会”为篇名的英文论文 2020年之后才出现几篇。在中国知网,以“智能社会”为篇名的中文论文从 1989年到2025年逾270篇。另有学者提出“硅基社会”概念,把硅元素视为智能社会生产要素中最基础的物质性要素,其他生产要素,比如劳动力、技术手段以及劳动对象,由于生产过程出现的“硅基化”转向,因而有可能形塑新型的劳动关系和其他社会关系。“硅基社会”这个概念的提出,源于人类惯于以关键物质及其利用方式来命名历史时期、文化形态、社会特征,由此出现的术语包括:“旧石器时代”“新石器时代”“玉文化”“青铜文化”“采集狩猎民族”“刀耕火种民族”“游牧民族”“农耕社会”“水利社会”“机器时代”“信息时代”“网络社会”。这些术语的一个共性是以物传神,用于揭示某一时代、某个文化、某些社会的特征。如今,硅片是制造人工智能设备芯片的基础性材料。中央处理器、图形处理器、张量处理器,均以硅晶圆为基底。硅基芯片是连接人工智能算法与物理系统的设备,助力人工智能设备与物联网、机器人、5G 等技术实现融合。硅基传感器用于采集现实世界的数据。模拟人脑神经结构的神经形态计算芯片,仍以硅作为核心材料。至少在可以预见的未来,硅仍将是人工智能硬件发展的基石。(景军,2026) 再有就是为人工智能社会科学注入以事寓理的历史叙事魅力,破除有关这一技术进程的欧美中心主义迷思。简言之,来自中国、印度、伊朗以及拉丁美洲、非洲等地区的学者对这一技术的发展都作出过非同小可的贡献。林军、岑峰共同研究出版的 《中国人工智能简史》 一书,回顾了 1979年到 1997年中国人工智能的研发历程,为撰写全球南方与这一技术研发的紧密关系开辟了先河。(林军、岑峰,2023)

总体而言,中国学界近年来加强了对人工智能的社会科学研究,且相对集中在治理议题上。针对治理问题展开研究无疑极有意义,同样重要的努力莫过于全面地建构标识性概念。鉴于西方学界在人工智能社会科学领域较早地提出了一系列标识性概念,另外考虑到许多发展中国家的学者围绕如何建立“主权人工智能”问题也提出了为数不少的标识性概念,中国社会科学界若不能以与时俱进的速度和决心及时地提出更多的切中要害、具有系统性和创新性、蕴含本土性和世界性意义的标识性概念,就会在人工智能领域陷入被动境地,甚至丧失话语权。

(参考文献和注释略)

内容来源:中山大学人文社会科学研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

博士生论坛第六十二期 | AI时代社交媒体虚假信息的传播机制与治理路径

2026年6月13日 14:11

2026-06-13 14:11 湖北

随着社交媒体普及与生成式人工智能迭代,虚假信息传播进入“AI深度伪造3.0”阶段。社交媒体语境下,虚假信息的传播机制主要体现在四个层面。可从制度设计、平台自律与公众素养提升三个维度构建协同治理体系,以应对AI虚假信息风险、优化网络生态治理。

👆👆👆点击蓝字 · 关注我们

摘要:随着社交媒体普及与生成式人工智能迭代,虚假信息传播进入“AI深度伪造3.0”阶段,呈现全域扩散、极速传播、圈层渗透与多模态异化等新特征。社交媒体语境下,虚假信息的传播机制主要体现在四个层面议题上,覆盖国际地缘、政府治理与日常生活等层级化场景;形态上,表现为文本、图像、音视频融合的多模态传播及叙事指纹化;渠道上,形成“人工生产—AI生成—平台放大”的链式扩散;逻辑上,则由受众心理、平台结构及“惯习—场域—资本”互动共同驱动。基于此,可从制度设计平台自律公众素养提升三个维度构建协同治理体系,以应对AI虚假信息风险、优化网络生态治理。

跨学科合作方向:“AI虚假信息识别与协同治理”为纽带,深度联动新闻传播学、计算机科学、社会学、法学与心理学等领域。依托多模态识别、跨平台追踪与传播建模,可协同人工智能大数据与网络安全研究,对虚假信息的生成机制、扩散路径及风险节点进行智能识别与预警;同时,结合平台治理与受众行为分析,推动虚假信息传播态势的动态监测和精准干预。这种交叉协同不仅有助于将治理模式从“事后辟谣”转向“全链条治理”,也能为传播规律揭示、平台责任厘定与公众素养提升提供系统支撑,进而推动网络生态治理由“被动应对”迈向“智能协同”

主讲人 赵慢慢

马克思主义学院博士研究生

时间

2026 年 6 月 18 日 11:30-12:30

地点

人文社科楼 B305 会议室

腾讯会议:775-6968-3346

主办单位

武汉大学文化遗产智能计算实验室(教育部哲学社会科学实验室)

武汉大学大数据研究院

线下参会报名表

欢迎参与

编辑 | 文化遗产智能计算实验室

审校 | 刘争

           武汉大学人文社科楼       

阅读原文

跳转微信打开

이원석 / 조선 전기 종묘 제기(祭器)의 변천 양상과 시맨틱 구조화 연구 / 2026 석사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:18

연구목표
(한글 2000자 이내)
본 연구는 조선 전기 종묘제례(宗廟祭禮)에서 사용되는 제기(祭器)의 시기별 변천 과정을 면밀히 고증하는 데에서 출발한다. 단순히 유물의 형태를 살피는 것에 그치지 않고 온톨로지(Ontology) 기반의 지식 그래프(Knowledge Graph)로 구조화한다. 그리고 제례 문화의 역사적 맥락과 변화를 논리적으로 추론할 수 있는 시맨틱 아카이브(Semantic Archive)를 구축하고 시각화하는 것이 최종적인 목표이다. 조선왕조는 『조선왕조실록』과 『국조오례의』 같은 기록을 통해 종묘제례에 관해 세밀하게 기록해 왔다. 그러나 이를 기반으로 현재 운영되는 관련 디지털 아카이브들은 단순한 텍스트 검색이나 개별 유물 이미지를 나열하는 수준에 머물러 있는 것이 사실이다. 이로 인해 제례 문화가 지닌 유기적인 변화상이나 역사적 의미를 입체적으로 파악하기에는 어려운 실정이다. 이러한 문제의식을 바탕으로 해당 연구는 파편화된 기록들을 온톨로지 기반으로 연결하고 디지털 기술을 활용해 시각화하고자 한다. 구체적인 연구의 목적과 방향은 첫째, 조선 전기인 세종부터 성종 연간을 집중적으로 조명하여 제기로 사용된 기형과 기종의 시기별 변화 양상을 분석하고자 한다. 단순히 문헌 속의 도설(圖說)에만 의존하지 않고 실제 박물관에 소장된 유물의 메타데이터 간 검증을 거쳐 고증을 확보한다. 또한 제기의 재질이나 기형이 변하는 현상을 기형적 변모로만 해석하는 것이 아닌, 해당 변화가 당대의 사회적 가치관이나 정치적 배경 등과 어떻게 맞물려 있는지 상관관계를 규명할 계획이다.
둘째, 파편화된 기록과 유물 데이터를 통합할 수 있는 시맨틱 데이터베이스를 설계한다. 또한 고문헌의 고어(古語)와 현대 용어 간 간극을 해소할 시소러스(Thesaurus)를 구축한다. 이를 기반으로 제기의 기종, 기형, 재질, 시기, 문양 등의 개념과 관계를 정의하는 온톨로지를 설계한다. 설계된 온톨로지로 제기의 변화가 국가 제도 및 사회적 사건과 어떻게 맞물려 있는지, 기종의 변천 과정을 논리적으로 설명할 수 있는 지식 구조를 구현한다.
마지막으로 앞서 구축된 지식 체계를 바탕으로 종묘제례 문화의 시간적 흐름을 경험할 수 있는 플랫폼을 구현한다. 특히 단순한 시각적 재현을 넘어 제기와 관련된 문헌 기록, 역사적 맥락, 상호 관계 정보를 지식 그래프와 연동하여 네트워크 형태로 시각화한다. 그 외에도 사용자가 특정 시점을 선택하면 당대 제례 공간에 사용된 제기와 관련된 배치를 플랫폼 내에 구현한다. 이러한 방법론은 전문가에 한정되었던 고증 연구를 일반 대중들과 교육 현장에서 직관적으로 활용하고 경험할 수 있는 기반이 될 것이다.
본 연구는 제례라는 무형유산과 제기라는 유형유산, 그리고 실록의 기록 자산을 디지털 기술로 통합하여 조선시대 제례의 변천사를 입체적으로 시각화하는데 목적이 있다. 단순히 과거를 복원하는 데 그치지 않고 제례 문화가 시대와 함께 어떻게 변화했는지를 분석할 수 있는 디지털 헤리티지의 새로운 방법론을 정립하려는 의미 있는 시도라고 할 수 있다.
기대효과
(한글 2000자 이내)
본 연구는 조선 전기 종묘제례에서 사용된 제기의 변천 과정을 시멘틱 구조로 체계화하여 미술사학과 디지털 헤리티지 측면, 사회적 측면에서 다음과 같은 다각적 효과를 창출할 것으로 기대된다.
먼저 미술사학 측면으로 조선시대 제례 연구에 새로운 분석 모델을 제시한다. 기존 제기와 관련한 연구는 미술사적 관점에서 집중되었다. 따라서 본 연구에서는 제기라는 구체적인 유물을 중심으로 사회적 변화와 국가 의례 체계 간의 상호 작용을 통시적 관점에서 분석하는 차별성을 가지고자 한다. 또한, 문헌 기록과 유물을 교차로 검증하여 구축된 지식 체계는 조선의 제례문화에 관한 연구의 기초 데이터로서 신뢰성과 논리성을 높일 것이다. 뿐만 아니라 파편화되어 있는 관련 데이터들을 시맨틱 구조로 통합하여 기존 데이터의 활용도를 높이고 연결된 데이터 사이에서 새로운 지식을 도출함으로써 디지털 인문학 연구의 가능성을 제시한다. 더 나아가 본 연구는 종묘제례를 넘어 유형유산과 무형유산의 포괄적 가치를 체계화하는 동시에 조선 왕실 의례 문화 전반을 아우를 수 있는 통합적 모델로 확장되는 학술적 토대가 될 것이다.
두 번째로 디지털 헤리티지학 연구에 있어 전통적인 연구 방법론을 넘어 다각적 활용이 가능한 융합적 연구 방법론으로 확장한다. 시소러스와 온톨로지 기반의 지식 그래프는 단편적인 인문학적 데이터를 단순히 나열하는 데 그치지 않고 의미적 연관성에 따라 체계화함으로써 데이터 간 숨겨진 맥락을 도출할 수 있다. 이는 기존의 관계형 데이터베이스가 가진 한계를 온톨로지 기반 데이터베이스로 보완하며 텍스트, 도설, 유물로 전해지던 파편적인 흔적을 유기적으로 연결할 수 있다. 이러한 다각적 맥락을 반영한 데이터 모델링은 유기적 관계성을 바탕으로 추론과 분석을 할 수 있고 이는 고도화된 지식 체계를 구현하는 기반이 될 것이다. 특히 HermiT 추론기를 통한 논리적 일관성 검증과 SPARQL 질의를 통한 데이터 유효성 점검을 병행하여 구축된 지식 모델의 데이터 정합성을 확보하고자 한다. 이러한 지식 그래프 구축 과정은 앞으로 여러 문화유산 데이터를 연결 및 확장하는 연구 방법론으로 활용될 것 이다.
마지막으로 사회 문화적 측면에서 고증에 기반한 본-디지털(Born-Digital) 콘텐츠를 확보하고 활용도를 높일 수 있다. 또한, 온톨로지를 기반으로 구성된 지식 체계는 복잡한 학술 정보를 누구나 쉽게 이해할 수 있도록 시각적으로 전달한다. 이는 전문가 영역에서 다룬 고증 연구를 일반 대중들이 쉽게 접근할 수 있다.
뿐만 아니라, 제례 공간에 사용된 제기를 가상 박물관에서 재현하는 플랫폼 구현을 통해 일반대중은 의례 문화에서 사용된 제기가 어떻게 변화되었는지 직접적으로 체험할 수 있다. 이러한 플랫폼은 지능형 전시 큐레이션부터 다양한 문화 콘텐츠 제작에 활용할 수 있는 높은 가치를 지닌다.
결과적으로 본 연구는 데이터 기반의 지식 구조화를 통해 파편화된 기록과 유물들을 하나로 모아 해석할 수 있는 연구 기반을 마련할 것으로 기대된다. 또한 온톨로지 설계 기반의 디지털 기술을 활용하여 문화유산이 지닌 학술적 가치와 사회적 활용성을 극대화할 수 있고 이는 디지털 헤리티지 연구에 기여할 것이다.
연구요약
(한글 2000자 이내)
본 연구는 조선 전기 종묘제례 제기가 시대에 따라 어떻게 변해왔는지 살펴보고 그 과정을 시맨틱 아카이브를 통해 시각화하는 것을 목표로 한다. 이를 위해 인문학적 분석과 디지털 기술을 결합해 네 단계로 구성된 연구 절차를 체계적으로 진행한다.
먼저 기초 데이터 수집 및 정제 단계이다. 『조선왕조실록』과 『국조오례의』 등 디지털화된 기록물과 국립중앙박물관과 국립고궁박물관이 소장한 유물의 메타데이터를 일차적으로 수집한다. 이를 바탕으로 제기의 기종, 기형, 재질 등을 분류 지표를 세워서 정리한다. 또한 문헌 속의 도설이나 실록의 기록들을 실제 유물의 물리적 형태와 교차 검증한다. 기록상의 규격이나 묘사가 실제 유물과 어느 정도의 일치성을 보이는지 파악하여 역사적 변용의 흔적을 추적한다. 그 외에도 고문헌에 등장하는 고어와 현대 용어 사이의 의미 차이를 좁히기 위해 유의어, 상위어, 하위어, 관련어를 아우르는 용어사전을 구축한다. 이를 통해 여러 문헌과 유물 데이터에서 사용된 명칭을 표준화하여 시맨틱 검색과 데이터 연계 작업도 훨씬 더 정확하게 이루어질 수 있다.
두 번째로 온톨로지 설계 및 지식 그래프 구조화 단계이다. 제기의 재질,의례, 시기 및 관련 역사적 사건 등 핵심 개념 간의 유기적 관계를 CIDOC-CRM 및 Linkded Art 같은 국제 표준 모델에 기초로 정의하고 이를 바탕으로 범용성과 고도화된 체계를 갖춘 온톨로지를 구축한다. 그리고 ‘주체–서술어–목적어’ 형태의 트리플(Triple) 구조를 구현한다. 또한 제기와 문헌 기록, 역사적 맥락들을 서로 연결하는 지식 그래프를 만든다. 이는 단순히 정보를 나열하는 것에 그치지 않고 데이터 사이의 관계를 바탕으로 설득력 있는 추론을 가능하게 한다.
세 번째로 온톨로지 검증 및 데이터 검증 단계이다. 우선 설계된 온톨로지가 논리적으로 일관되고 계층 구조나 속성, 그리고 관계 정의가 적절한지 HermiT 추론기를 활용하여 검증한다. 다음으로 지식 그래프에 실제 데이터를 적용하고, SPARQL 질의를 통해 관계 구조와 데이터의 유효성을 점검한다. 그 외에도 조선시대 의례 연구의 기존 성과와 비교 분석하고 전문가 자문을 병행함으로써 학술적 신뢰성과 고증의 정확성을 확보한다.
마지막으로 시각화 및 플랫폼 구현 단계이다. 먼저 구축된 지식 그래프를 기반으로 사용자가 특정 시기나 제기 유형을 선택하면 관련 유물과 문헌 기록, 역사적 맥락 등을 네트워크 형태로 시각화하여 보여준다. 또 시대별로 제례 공간 내 제기 배치를 재현해 볼 수 있는 가상박물관을 구현한다. 이러한 시도는 문헌 속 데이터와 실제 유산을 서로 연결된 다차원적 디지털 경험으로 확장되는 한편 궁극적으로 온톨로지 기반의 시멘틱 아카이브 플랫폼 구현으로 이어진다.
해당 과정들을 통해 본 연구는 문헌과 유물 데이터를 통시적으로 분석하고, 종묘제례에서 사용된 제기의 변천과 그 안에 담긴 역사적 맥락을 직관적으로 이해할 수 있도록 연구 기반을 다지고자 한다.
키워드(Keyword)
(한글 250자 이내)
종묘제례, 제기, 지식그래프, 온톨로지, 디지털 아카이브
키워드
(영어 500자 이내)
Jongmyo Jerye, Ritual Vessels, Knowledge Graph, Ontology, Digital Archive

게시물 이원석 / 조선 전기 종묘 제기(祭器)의 변천 양상과 시맨틱 구조화 연구 / 2026 석사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

송치영 / 학술 텍스트에 투영된 인문학 연구자들의 디지털 수용과 인식의 변천사: 딥러닝 기반 “디지털 인문학”의 의미 구조 변화를 중심으로 / 2026 석사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:17

연구목표
(한글 2000자 이내)
정보기술의 급격한 발전과 사회적 확산은 인문학 학술 환경과 연구 방식, 매체와 인지 과정의 전환을 촉발했다. 적지 않은 수의 인문학 연구자들은 디지털 기술을 인문학 연구 활동에 도입했고, 그로 인해 발생된 ‘디지털 인문학’의 학술적 적실성에 대한 논쟁은 아직까지도 치열하게 전개되고 있다. 본 연구는 인공지능과 로보틱스 중심의 또다른 사회 재편을 앞둔 현 시점에서 인문학 연구자들의 정보기술 인식과 수용 서사를 검토함으로써, 디지털 시대 인문학 학술 커뮤니케이션의 변화와 향후 전망을 이해하고자 한다.

‘디지털 인문학’의 등장에 따라 어떠한 디지털 기술이 인문학 연구에 사용되었고, 근거하는 주요 학문 분야나 이론이 무엇인지 규명하는 연구도 활성화되었다. 하지만, 이러한 논의는 디지털 인문학 연구에 반영된 인문학 내 정보기술 담론이 어떻게 변하고 학문적 기제로 작용했는지를 충분히 다루지 않았다. 본 연구는 이러한 연구사적 공백을 토대로 인문학 연구자들의 지식과 당대적 인식이 내포된 학술문헌 텍스트에 문맥 기반 동적 워드 임베딩(Dynamic Contextualized Word Embedding)을 적용해 연구자들의 정보기술 인식의 의미적인 구조의 변화를 세밀하게 추적한다.

구체적으로 본 연구는 다음과 같은 세부 목표를 중심으로 진행한다. 첫째, 정보기술 담론의 핵심 기표로서 ‘digital’의 언어적 분포와 의미적 양상은 시기별로 어떻게 변하는가? 둘째, 역사, 문학, 철학 등 인문학 내 세부분야 별로 의미적인 차이가 발생하는 시기가 존재 하는가? 셋째, 도출된 정량적인 지표는 실제 디지털의 인문학의 학술사적 맥락과 어떻게 교차하는가? 이를 통해 본 연구는 언어적 분포의 변화를 통해 정보기술 발전이 인문학적 사유에 개입하는 과정을 실증해보고자 한다 .
기대효과
(한글 2000자 이내)
‘디지털’의 분포의미론적 구조의 변화를 토대로 인문학 내 정보기술 담론 변화를 포착하려는 본 연구는 다음과 같은 기대효과를 창출할 수 있다.

첫째, 본 연구는 디지털인문학의 학문사적 궤적을 설명하는 새로운 관점을 제공할 수 있다. 어떤 기술을 활용하며 그것이 새로운 인문학적 해석방식으로 적합한지 논의를 넘어 실제 인문학 연구자들의 텍스트에 반영된 정보기술 사회 인식과 학술적 실천의 맥락을 조망하도록 논의를 확장할 수 있다.

둘째, 연구자들의 지적 맥락이 담긴 1차사료로서 학술문헌 텍스트의 활용성을 제기한다. 매년 수십만 건 이상 발행되는 대규모 학술 텍스트를 딥러닝 기반 자연어처리 기법으로 분석하면서, 디지털 학문사 및 텍스트 기반 학술 커뮤니케이션 연구의 가능성을 모색한다.

셋째, 인문학 학술 커뮤니케이션의 변화를 진단하고 가치를 제고하는 데 이용할 수 있다. 인문학 연구자들이 당대적 맥락과 어떻게 상호작용하는지 규명함으로써, 가까운 미래에 예정된 인공지능과 로보틱스 중심의 전면적인 사회 재편 속에서 인문학의 학문적 제고와 변화상 예측에 활용할 수 있다.

넷째, 오픈 사이언스를 실천하며 연구의 투명성, 재현성을 확보할 것이다. 분석에 사용한 데이터 처리와 분석 코드는 github나 google drive 등에 부록 형식으로 공유해서 접근성을 높여 동일한 연구 프레임워크를 쉽게 따라할 수 있도록 인프라를 구축할 것이다.
연구요약
(한글 2000자 이내)
본 연구는 인문학 학술문헌 텍스트에서 자연어처리 기법으로 ‘digital’과 의미적으로 유사한 단어들의 분포 변화를 분석하여 ‘디지털’ 전환에 대한 인문학 연구자들의 인식과 학술적 실천의 양상을 규명하는 데 목표를 둔다. 시기·학문분야별 특성을 의미 공간에 반영하고, 정밀하게 변화를 추적하기 위해 본 연구는 문맥 기반 동적 워드 임베딩(Dynamic Contextualized Word Embedding)을 활용한다. 연구는 다음과 같은 단계로 수행한다.

  1. 데이터셋 구축 및 임베딩 모델 학습
    글로벌 학술 데이터베이스인 OpenAlex API를 활용하여 ‘digital’과 ‘computational’이 포함된 인문학 학술텍스트 약 19만 건을 수집하고 발행연도와 세부분야를 라벨링한다. 레이블은 Dynamic Contextualized Word Embedding에 차이값으로 의미공간에 직접 반영해서, 기존의 정적 임베딩 모델이나 일반적인 문맥 기반 모델이 포착하기 어려운 미세한 담론 변화를 반영한다.
  2. 통사·의미론적 변화 측정(전체/세부분야별로 비교)
    구축된 모델을 바탕으로 ‘digital’과 ‘computational’ 간 유사도 변화를 산출해서 의미적인 결합과 분리 지점을 정량화한다. 섀넌 엔트로피나 젠슨-섀넌 분산, 평균 내적 거리 등의 지표를 이용해 주변 단어의 분포적 변화를 측정하고 통사적 분포와 교차 대조해서 ‘digital’ 인식의 의미적인 구조의 변화를 식별한다.
  3. 디지털 인문학의 학문사적 맥락-양적 변곡점과 교차 검토
    정량적인 변곡점은 디지털인문학 관련 선행 연구, 디지털인문학 관련 학술 단체 설립 및 연구비 지원 사업 시행 등의 정성적 맥락과 비교 검토한다.
    키워드(Keyword)
    (한글 250자 이내)
    디지털 인문학, 인문학 연구자, 디지털 인식, 문맥 기반 동적 워드 임베딩
    키워드
    (영어 500자 이내)
    digital humanities, humanities researchers, digital engagement, dynamic contextualized word embedding

게시물 송치영 / 학술 텍스트에 투영된 인문학 연구자들의 디지털 수용과 인식의 변천사: 딥러닝 기반 “디지털 인문학”의 의미 구조 변화를 중심으로 / 2026 석사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

김필하 / HGIS를 활용한 조선 세종~성종대 여진족 침입과 북방 방어 체계의 공간 분석 / 2026 석사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:15

연구목표
(한글 2000자 이내)
첫째, 조선 세종대부터 성종대까지 조선 북방 지역에서 나타난 여진족 침입과 축성의 양상을 구체적으로 드러내고자 한다. 조선 전기 북방 지역은 여진 세력의 동향에 따라 군사적 긴장과 대응 정책이 복합적으로 전개된 공간이었다. 조선은 정벌과 회유 정책뿐 아니라 축성을 통해 방어체제를 정비하였다. 본 연구는 『조선왕조실록』과 지리지 자료를 바탕으로 여진족 침입 기사와 축성 관련 기록을 수집·분석함으로써, 개별 사건으로 파악되어 온 북방 문제를 연속적이고 구조적인 흐름 속에서 이해하고자 한다.
둘째, HGIS(Historical Geographic Information System) 기술을 활용하여 조선 전기 축성을 중심으로 한 북방 관방체계의 구조를 공간적 차원에서 복원하고자 한다. 기존 연구는 조선과 여진의 관계, 여진 정벌, 내조·수직 정책 그리고 4군 6진 개척 등 사건사 중심으로 축적되어 왔다. 최근에는 HGIS를 활용한 행정구역 및 교통로 복원 연구도 이루어지고 있다. 그러나 북방 관방체계를 대상으로 침입 지점, 군사 거점, 자연지형, 교통로를 종합적으로 분석한 연구는 드물다.
셋째, 여진족 침입과 북방 축성의 상관관계를 시기별로 검토함으로써, 궁극적으로 조선 전기 북방 방어체제의 형성을 해명하고자 한다. 세종부터 성종대에 이르는 시기는 여진족 침입이 빈번하게 나타나 변경 지역의 상황에 기민하게 반응하며 집중적으로 축성이 이루어진 시기였다. 이와 같은 검토를 통해 조선이 북방에서 추구한 군사적 대응의 원리와 대여진 정책을 입체적으로 이해할 수 있을 것이다.
본 연구는 여진족 침입과 축성이라는 두 요소를 통해 조선 전기 북방 경영의 실상을 연구하고자 한다. 나아가 GIS를 활용한 역사학 연구의 가능성을 구체적으로 제시함으로써 조선 전기 북방 문제를 새롭게 해석하는 방법론적 토대를 마련하고자 한다.
기대효과
(한글 2000자 이내)
역사적 변화를 이해하기 위해서는 사건이 전개된 시간적 흐름과 공간적 범위를 함께 파악할 필요가 있다. 이처럼 시공간적 구조를 함께 파악하는 작업은 그 자체로 역사학의 기초를 이루는 중요한 방법론이다. 특히 조선은 건국 초부터 군사를 국가의 큰 일(大事)로 인식하였다.
일반적인 텍스트 서술을 넘어 시공간 데이터베이스에 기반하여 제작되는 역사지도는 복잡한 역사적 사실과 그 공간적 관계를 시각적으로 드러낼 수 있다는 점에서 역사학 연구의 새로운 가능성을 제시할 것으로 기대된다.
본 연구는 세종부터 성종대까지의 여진족 침입과 북방 축성을 함께 검토함으로써 조선 전기 북방사 연구를 개별 사건이나 정책 중심의 서술에서 벗어나 방어체계의 형성과 운영 원리를 입체적으로 파악하는 방향으로 확장할 수 있다. 특히 HGIS 기술을 활용하여『조선왕조실록』과 지리지, 고지도에 산재한 정보를 HGIS 기반 공간정보로 구축함으로써 기존 연구에서 충분히 드러나지 않았던 침입 경로와 방어 거점의 분포, 자연지형과 교통로의 관계, 시기별 방어선의 변화 양상 등을 시각적으로 확인할 수 있을 것이다. 이는 조선 전기 북방 방어체제의 실제 모습을 복원하는 데 중요한 단서를 제공할 것이다.
또한 본 연구를 통해 구축된 지명 위치, 성곽 등의 시공간 데이터는 향후 조선 전기 북방사 연구뿐 아니라 북방 외교, 대명 관계사 연구로까지 확장 가능한 기초 자료로 활용될 수 있다. 이 점에서 본 연구는 하나의 주제를 해명하는 데 그치지 않고, 후속 연구를 위한 데이터 기반을 축적함으로써 역사학 연구의 방법론적 확장과 심화에도 기여할 것으로 기대된다.
연구요약
(한글 2000자 이내)
본 연구는 세종부터 성종대까지의 여진족 침입과 북방 축성 관련 기사를 HGIS 기반의 공간 정보로 구축하여 문헌에 분산되어 있는 사건과 방어시설을 시각적으로 재구성하고자 한다. 이를 통해 압록강·두만강 유역을 중심으로 조선 전기 북방 방어 거점의 집중 지역과 상호 연계 양상, 그리고 여진 세력 침입의 전개 양상을 분석하고자 한다. 나아가 왕대별로 방어체계의 변화를 비교함으로써 조선 전기 북방 방어체계의 형성과 재편 과정을 입체적으로 파악하고자 한다.
그동안 조선과 여진 세력 간 관계, 여진 정벌, 내조와 수직, 영토 개척 등 개별 사건과 정책을 중심으로 상당한 성과를 축적되어 왔다. 그러나 실제 북방의 질서는 이러한 개별 사건만으로 충분히 설명되기 어렵다. 접경 지역 방어와 군사 대응이 조선 전기 국가 운영의 핵심 과제였다는 점에서 북방 방어체계의 작동 양상을 밝히는 일은 당시의 안보 인식과 접경 지역 운영의 성격을 이해하는 데 중요한 의미를 지닌다. 특히 세종대 후반에는 기근과 같은 대내적 어려움이 이어졌음에도 북방 축성이 지속적으로 추진되었다는 점에서 축성은 단순한 군사 시설의 설치가 아니라 북방 통치와 방어 전략의 핵심 수단으로 기능하였다고 생각된다. 본 연구는 이러한 문제의식에서 출발하여 침입과 축성을 하나의 연속된 흐름 속에서 파악하고자 한다.
본 연구의 구성은 크게 세 부분으로 이루어진다. 우선, 『조선왕조실록』과 지리지 자료를 중심으로 여진 침입 및 북방 축성의 시기별 전개 양상을 정리한다. 이때 단순히 축성이나 침입 기사만을 발췌하는 데 그치지 않고, 연대기적 흐름에 따라 사료를 읽어 내려가며 해당 기록의 정치적·군사적 맥락을 함께 살펴볼 것이다. 이후「대동여지도」를 비롯한 다양한 고지도와 현대 지형 지도를 활용하여 주요 지명과 군사 거점의 위치를 비정하고자 한다. 마지막으로 이렇게 정리된 지리 정보를 HGIS 기반 공간정보로 구축할 것이다. 이 과정에서는 우선 QGIS 프로그램을 활용하여 고지도의 지리참조와 공간정보의 기초 구축을 수행하고, 필요할 경우 ArcGIS 프로그램도 함께 활용하여 정밀한 공간 분석을 진행하고자 한다. 이를 통해 개별 성곽의 존재를 확인하는 수준을 넘어 북방 방어체계가 실제로 어떤 공간적 질서 속에서 구성되고 재편되었는지를 밝히는 데까지 나아가고자 한다.
본 연구에서는 다음과 같은 방법을 통해 연구를 진행할 것이다. 우선 실록과 지리지에서 관련 기사와 지명을 추출하여 목록화한다. 다음으로 고지도와 현대 지형도 및 위성지도 등을 대조하여 각 지점의 위치를 비정하고, QGIS에서 지오레퍼런싱 작업을 수행해 고지도와 현대 지도를 중첩한다. 셋째, 비정된 지점을 바탕으로 침입 지점과 군사 거점은 포인트 데이터로, 주요 교통로와 이동 경로는 라인 데이터로 구축한다. 하천과 산맥 등 자연 지형 정보과의 입지적 연관성을 분석한다. 마지막으로 넷째, 이렇게 구축한 데이터를 바탕으로 성곽 분포 밀도, 거점 간 거리, 교통로 및 자연지형과의 관계를 분석하고, 이를 왕대별로 비교하여 조선 전기 북방 방어체계의 변화 양상을 규명하고자 한다
키워드(Keyword)
(한글 250자 이내)
조선시대, 축성, 대여진, HGIS, 대동여지도, 북방 방어체제
키워드
(영어 500자 이내)
Joseon Dynasty, Fortress Construction, Relations with the Jurchens, Historical Geographic Information System (HGIS), Daedongyeojido, Northern Defense System

게시물 김필하 / HGIS를 활용한 조선 세종~성종대 여진족 침입과 북방 방어 체계의 공간 분석 / 2026 석사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

정채연 / 야담 시맨틱 데이터 구축 및 활용 방안 – “계서잡록”을 중심으로 / 2026 석사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:14

연구목표
(한글 2000자 이내)
본 연구의 목적은 『계서잡록』 텍스트 내부에 존재하는 다양한 문맥 및 서사 정보를 기계가 읽고 이해할 수 있는 시맨틱 데이터로 설계 및 구축하고, 이를 인물과 사건, 공간 등이 얽힌 지식 그래프로 정리하는 데 있다. 나아가 구축된 데이터를 기반으로 서사 및 서술 방식에 대한 정량적, 정성적 분석을 시도하여 그 활용 방안을 깊이 있게 탐구하고, 연구의 최종 결과물을 웹 플랫폼으로 공유함으로써 데이터 기반 고전서사 분석이 지닌 새로운 가능성과 학술적 효용성을 증명하고자 한다.
AI 시대를 맞이하여 전문성과 신뢰성을 갖춘 인문학 데이터셋 확보가 학계의 중요한 과제로 대두되고 있다. 고전서사 분야, 그중에서도 야담 연구에 있어서 데이터베이스 설계 논의가 점차 활발히 전개되고 있으나, 기존의 연구 성과는 대부분 이론적인 설계 단계에 머물러 있거나 특정 유형의 이야기에만 국한된 부분적인 데이터를 구축하는 수준에 그치고 있다. 방대한 분량의 야담집 한 권을 온전히 데이터화하여 학계와 대중에 공개한 사례는 아직 찾아보기 어렵다. 데이터 설계 단계에서는 미처 예상하지 못했던 다양한 변수들이 실제 구축 과정에서 발생하기 마련이므로, 범용적이고 표준적인 데이터베이스 모델을 확립하기 위해서는 연구자가 직접 텍스트를 다루며 구축의 전 과정을 겪어낸 경험과 실증적인 데이터가 반드시 필요하다.
이에 본 연구는 조선 후기 야담집 편찬의 효시이자 후대 야담집 형성에 큰 영향을 미친 이희평의 『계서잡록』을 연구 대상으로 삼는다.
본 연구는 구축된 데이터를 활용하여 다음과 같은 두 가지 질문을 중점적으로 해명하고자 한다. 첫째, 지식 그래프를 통해 드러나는 『계서잡록』의 당파적 인물 네트워크는 어떠한 구조를 지니는가에 대한 규명이다. 기존 선행연구에 따르면 편찬자 이희평은 서사 내에 노론으로서의 당파성을 강하게 투사한 것으로 평가받고 있다. 본 연구는 인물 노드 간의 관계와 각 인물에게 부여된 서사적 평가를 네트워크 그래프로 시각화한다. 이를 통해 작가의 정치적 정체성이 작품 내 인물들의 위계 설정과 중심 및 주변부 배치에 어떻게 구체적이고 체계적으로 작용하고 있는지를 정량적이고 시각적인 데이터로 입증할 것이다. 둘째, 현실성과 기이성이 데이터 속에서 어떻게 교섭하고 있는가에 대한 분석이다. 『계서잡록』에는 현실적인 사건과 기이성을 가진 요소들이 융합되어 서사가 전개되는 특징을 보인다. 기이성을 속성으로 지닌 노드와 현실성을 띤 인물, 사건, 장소 사이의 연결망을 면밀히 파악함으로써, 당대 사대부 계층의 어떠한 현실적 결핍과 정치적 욕망이 기이성을 호출하여 사건을 해결하고 서사를 이끌어가는지 파악한다. 아울러 이러한 교섭 양상이 특정한 지리적 공간 정보와 어떻게 결부되어 나타나는지 그 빈도와 패턴을 통계적으로 밝혀낼 것이다.
기대효과
(한글 2000자 이내)
본 연구는 『계서잡록』의 서사 정보를 체계적인 데이터로 전환하고 분석함으로써 학술적, 방법론적, 그리고 사회·교육적 측면에서 다음과 같은 다각적이고 깊이 있는 파급 효과를 지닌다.
첫째, 데이터 기반 야담 연구의 강력한 기초 자원을 제공하고 고전문학 연구의 방법론적 확장을 도모한다. 문학 텍스트를 정형화된 데이터로 다루는 작업은 텍스트 전체의 경향성을 파악하는 거시적 조망을 가능하게 함과 동시에, 인물 간의 호칭 변화나 특정 소재의 등장 빈도 등을 면밀히 추적하는 미시적인 독해를 더욱 용이하게 만들어준다. 본 연구가 최종적으로 제공할 원문 텍스트 및 한글 번역, TEI 가이드라인을 준용하여 정밀하게 태깅한 데이터 문서, 지식 그래프 정보 등은 그 자체로 의미가 있는 기초 자원이다. 이는 단순한 어휘 빈도 추출을 넘어, 기존의 직관적 해석에 주로 의존하던 야담 연구를 실증적이고 데이터 기반의 영역으로 확장하는 데 기여할 것이다. 야담 연구자들은 공개된 데이터를 바탕으로 각자의 학술적 관심사에 맞춘 다양한 후속 연구를 편리하고 효율적으로 진행할 수 있다.
둘째, 연구 대상의 확장을 통한 한국 야담의 거시적 전승 양상 규명에 기여한다. 본 연구에서 확립한 야담 데이터베이스의 표준 모델을 바탕으로, 향후에는 『계서잡록』에 존재하는 수많은 이본의 데이터를 추가로 구축하여 비교 문헌학적 연구의 지평을 넓힐 수 있다. 나아가 『동패락송』, 『계서야담』 등 『계서잡록』과 내용상, 계보적으로 거리가 가까운 다른 야담집들로 연구 대상을 점진적으로 확장해 나갈 수 있다. 여기에 근대 야담 아카이브와의 연결성까지 모색한다면, 조선 후기부터 근대에 이르기까지 야담 서사가 어떻게 전승되고 변이되었는지 그 양상을 거시적이고 통시적으로 확인하는 연구를 수행할 수 있을 것이다.
셋째, 웹 프로토타입 구축을 통한 고전 서사의 대중적 활용 가능성을 제시한다. 본 연구에서는 일차적으로 원문 텍스트와 연구자가 미리 수행한 시각화 결과를 직관적으로 확인할 수 있는 웹페이지를 프로토타입 형태로 제시한다. 향후 이를 고도화하여 사용자가 직접 간단한 분석까지 진행할 수 있는 본격적인 야담 플랫폼으로 구축한다면, 고전 텍스트에 대한 대중의 접근성을 크게 높여 교육적 목적으로 활용될 수 있을 뿐만 아니라 현대 콘텐츠 창작자들의 아이디어 수집을 위한 원천 소스로도 유용하게 쓰일 수 있을 것이다.
연구요약
(한글 2000자 이내)
◇ 연구 목표: 본 연구는 조선 후기 야담집 『계서잡록』을 시맨틱 데이터로 구조화하고 이를 xml 문서와 지식 그래프로 구현하여 데이터 기반 고전서사 분석이 가진 연구 가능성을 증명하는 데 있다. 기계가 문맥과 관계를 이해할 수 있도록 데이터를 설계 및 구축하고, 이를 공유하여 ‘멀리서 읽기’와 ‘꼼꼼히 읽기’ 연구를 모두 도울 수 있는 표준 모델을 수립하고, 데이터로 학계에 기여하고자 한다.
◇ 연구 내용: 본 연구는 조선 후기 야담집 편찬의 효시이자 후대 야담집 형성에 큰 영향을 미친 『계서잡록』을 연구 대상으로 한다. 이는 계서 이희평이 편찬한 4책 약 240화 분량의 야담집으로, 선본으로 인정되는 권1 성대본, 권2 익선재본, 권3 이희평본과 완질본인 일사본을 기반으로 연구를 수행한다. 구축된 시맨틱 데이터와 지식 그래프를 바탕으로, 본 연구는 다음과 같은 연구 질문을 규명하고자 한다. 첫째, 지식 그래프를 통해 드러나는 『계서잡록』의 당파적 인물 네트워크는 어떠한 구조를 지니는가? 편찬자 이희평이 투사한 노론으로서의 당파성을 확인하기 위해 인물 노드 간 관계와 평가를 시각화하여 그의 정치적 정체성이 어떻게 작용하는지 입증할 것이다. 둘째, 현실성과 기이성은 시맨틱 데이터 속에서 어떻게 교섭하는가? 기이성을 속성으로 지닌 노드와 현실적인 인물, 사건, 장소 등과의 관계를 파악하여 당대 사람들의 어떠한 결핍과 욕망이 기이성을 호출해 서사를 전개하는지 그 패턴의 결부 양상을 통계적으로 밝혀낼 것이다.
◇ 연구 방법: 설정한 연구 목표를 달성하기 위해 다음의 4단계 추진 전략을 바탕으로 연구를 수행하고자 한다.
① 기초 데이터 정비 단계: 선행연구를 자세히 조사하고, 『계서잡록』 이본을 파악하여 문헌학적 토대를 공고히 한다. 특히 연구 대상이 되는 주요 선본을 대조하여 신뢰도 높은 텍스트를 마련하고 검수한다.
② 온톨로지 설계 및 DB 구축 단계: 선행 모델을 참조하여 온톨로지를 설계하고, 직접 데이터를 구축하는 과정에서 수정하는 과정을 반복한다. 설계된 온톨로지를 기반으로 데이터베이스를 입력하고, TEI 가이드라인을 준수하여 xml 태깅을 수행한다.
③ 그래프DB 구현 및 서사 분석 단계: 구축된 데이터를 기반으로 분석을 수행한다. 데이터를 그래프DB(neo4j)로 변환하고, 쿼리를 활용하여 유의미한 연구 질문을 생성한다. 역사 데이터, 지리 정보 등 연관 데이터와 연결하고, 이를 통해 네트워크 그래프, 지도 시각화 등을 수행한다.
④ 웹 프로토타입 개발 및 연구 성과 공유 단계: 연구 결과를 직관적으로 전달할 수 있도록 프로토타입으로 웹을 개발하여, 앞선 DB 활용 방안과 맞닿은 시각화 결과 및 데이터셋을 공유한다.
키워드(Keyword)
(한글 250자 이내)
계서잡록, 야담, 시맨틱 데이터, 지식 그래프, 디지털 인문학, 온톨로지, 확장성 마크업 언어, 텍스트 인코딩 이니셔티브
키워드
(영어 500자 이내)
Gyeseojaprok, Yadam, Semantic Data, Knowledge Graph, Digital Humanities, Ontology, XML, TEI

게시물 정채연 / 야담 시맨틱 데이터 구축 및 활용 방안 – “계서잡록”을 중심으로 / 2026 석사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

정선한 / 디지털 인문학 방법론을 활용한 국내 중어중문학 전공 교육과정 구조 분석 / 2026 석사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:13

연구목표
(한글 2000자 이내)

본 연구의 목적은 전국 중어중문학 유관 전공 학과의 교육과정이 교육목표에 부합하도록 구성되어 있는지를 디지털인문학 방법론에 입각하여 실증적으로 규명하는 것이다. 현재 중문학계는 AI 기술의 급속한 발전으로 언어 이해·번역·텍스트 생성 등의 과업을 AI가 빠르게 대체하고 있으며, 다수의 대학에서 중국어 관련 학과의 신입생 충원율 하락과 학과 통폐합되는 현상을 보이고 있다.
이러한 시점에서 현 교육체제의 구조적 현황을 객관적으로 진단하고, 교육 방향성에 대한 실증적 근거를 확보하는 것은 학계의 시급한 과제이다. 그러나 전국 단위에서 중어중문학 유관 전공 학과의 교육과정을 체계적으로 수집·구조화하고, 교육목표와의 정합성을 데이터에 기반하여 분석한 연구는 부재한 실정이다.

이에 본 연구는 다음의 네 가지 연구 목표를 설정한다.
첫째, 전국 중어중문학 유관 전공 학과의 교육목표와 교육과정(교과목·이수체계 등)을 전수 조사하여 수집·정리한다. 교육부 공시 문서인 ‘2024학년도 4년제 대학 모집 단위별 입학정원’에 등재된 대학 중, 2025학년도에 신입학생을 모집한 대학을 대상으로 하며, 2025·2026학년도 교육과정을 기준으로 수집한다.
둘째, 대학-학과-교과목 간의 위계와 관계를 체계적으로 반영하는 온톨로지 기반의 데이터 스키마를 설계하여 분석의 일관성과 확장성을 확보한다.
셋째, 설계된 스키마를 기초로 교육과정 데이터를 지식그래프(Knowledge Graph) 형태의 데이터베이스로 구축한다.
넷째, 구축된 데이터베이스를 활용하여 거대언어모델(LLM)의 의미 분석 기능을 통해 교육목표와 교과목 간의 정합성을 분석한다.
이상의 목표를 통해 중어중문학 교육과정의 구조적 현황을 객관적으로 진단하고, AI 시대에 부합하는 교육 방향을 모색하는 데 실질적인 근거를 제공하고자 한다.

기대효과
(한글 2000자 이내)

본 연구의 기대효과는 학술적 기여, 방법론적 기여, 실천적 활용의 세 차원으로 구분된다.

첫째, 학술적 기여이다. 본 연구는 전국 중어중문학 유관 학과의 교육목표와 교육과정을 전수 조사하여 구축한 최초의 체계적 데이터셋을 산출한다. 이 데이터셋은 후속 연구의 기반이자 학계 전반이 참조할 수 있는 공개적 정보 자원으로 기능할 수 있다. 특히 2025·2026학년도 데이터를 기준으로 수집하되, 이후 학년도 데이터를 추가·갱신하여 통시적 변화를 추적하는 장기 데이터셋으로 성장시킬 수 있다. 이를 통해 AI 기술 발전이 중어중문학 교육에 미치는 영향을 시계열적으로 추적·분석할 수 있는 실증적 토대가 마련된다. 아울러, 교육목표와 교과 편성 간의 정합성을 정량적으로 진단함으로써, 기존에 질적 해석에 의존하던 교육과정 연구의 분석 체계성과 재현 가능성을 제고한다.

둘째, 방법론적 기여이다. 본 연구에서 설계하는 대학-학과-교과목 온톨로지는 중어중문학 분야에 국한되지 않는다. 타 어문학이나 인문학 분야에서 교육 지형을 분석하고자 할 때 참조 모델(벤치마크)로 활용될 수 있으며, 이는 본 연구의 방법론적 기여가 특정 학문 분야를 초월한 범용적 가치를 지님을 의미한다. 또한 지식 그래프는 새로운 연결 데이터(Linked Data)의 추가가 용이하도록 설계되므로, 졸업생 진로 데이터, 산업체 수요 데이터 등을 연결하면 교육과정과 사회적 수요 간 정합성까지 분석 범위를 확대할 수 있다. 나아가, 인문학 데이터에 온톨로지 설계, 지식그래프 구축, LLM 기반 의미 분석을 결합하는 일련의 연구 파이프라인은 디지털인문학 방법론의 구체적 적용 사례로서 후속 연구자들에게 참고 프레임워크를 제공한다.

셋째, 실천적 활용이다. 본 연구의 분석 결과는 각 학과가 교육목표와 교과 편성 사이의 괴리를 자체적으로 점검하고, 교육과정을 개선하는 데 실질적인 참조 자료로 활용될 수 있다. 특히 AI 환경에서 어문학 교육이 지향해야 할 사고·추론·이해·표현 능력의 본질에 대한 논의를 데이터에 기반하여 촉발함으로써, AX(AI Transformation) 시대의 인문학 교육 재구성을 위한 학술적·정책적 논의에 기초 자료를 제공할 수 있다.

연구요약
(한글 2000자 이내)

본 연구의 목적은 전국 중어중문학 유관 전공 학과의 교육과정이 교육목표에 부합하도록 구성되어 있는지를 데이터에 입각하여 실증적으로 규명하는 것이다. AI 기술이 언어 관련 과업을 빠르게 대체하는 현 시점에서, 중어중문학 교육체제의 구조적 현황을 객관적으로 진단하고 향후 교육 방향에 대한 근거를 확보할 필요가 있으나, 전국 단위의 체계적 데이터 기반 분석은 부재한 실정이다.

이에 본 연구는 이 공백을 메우는 기초 자료로서, AI 시대에 부합하는 교육 방향을 모색하는 데 실질적인 근거를 제공한다.
첫째, 전국 본 연구를 진행하기 위해 전국 중어중문학 유관 전공 학과의 각 홈페이제 공시된 교육목표와 2025·2026 교육과정을 수집한다. 대학 선정 기준은 교육부 공시 문서인 ‘2024학년도 4년제 대학 모집 단위별 입학정원’으로 한다.
둘째, 관련 데이터 수집이 완료되면 온톨로지를 설계하여 데이터를 체계화한다. 이를 통해 대학-학과-교과목 간의 복잡한 관계를 유연하고 직관적으로 탐색할 수 있다.
셋째, 설게된 온톨로지를 기초로 지식 그래프 형테의 데이터베이스를 구축한다. 구축 도구로 Neo4j, 위키(Wiki)와 같은 플랫폼을 활용할 수 있다.
넷째, 구축된 데이터베이스는 거대언어모델(LLM)을 활용하여 의미 유사도(Semantic Similarity) 측정, 임베딩(Embedding) 기반 군집 분석(Clustering), 텍스트 분류(Text Classification) 등의 분석 기법을 적용하여 교육목표와 교육과정 간의 구조적 정합성을 진단한다.

본 연구를 통해 중어중문학 교육과정의 구조적 현황에 대한 실증적 진단 결과를 도출하고, 구축된 데이터셋과 온톨로지를 학계의 공개적 정보 자원 및 타 인문학 분야의 참조 모델로 제공하고자 한다.

키워드(Keyword)
(한글 250자 이내)
중어중문학, 교육과정, 교육목표, 지식그래프, 온톨로지, 거대언어모델(LLM), 디지털인문학, 교육 지형 분석
키워드
(영어 500자 이내)
Chinese Language and Literature, Curriculum, Educational Objectives, Knowledge Graph, Ontology, Large Language Model (LLM), Digital Humanities, Educational Landscape Analysis
닫기

게시물 정선한 / 디지털 인문학 방법론을 활용한 국내 중어중문학 전공 교육과정 구조 분석 / 2026 석사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

정철 / BIBFRAME 데이터의 AI 검색 기법에 관한 연구 / 2026 박사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:12

연구목표
(한글 2000자 이내)
도서관은 정보자원을 수집하고 조직하여 이용자의 정보 요구에 적합한 자원에 접근하고 이를 활용할 수 있도록 지원하는 기관이다. 이러한 기능을 실현하기 위한 핵심 도구는 목록이며, 1960년 미국 의회도서관에서 MARC가 제안된 이후 수십 년 동안 도서관 목록 데이터의 표준 구조로 활용되어 왔다. MARC는 서지 정보를 기계가독 형태로 구조화하여 도서관 간 서지 데이터 교환과 공유를 가능하게 하는 레코드 기반 데이터 구조로, 도서관 정보 조직과 데이터 교환의 기술적 기반으로 기능해 왔다.
그러나 웹 환경의 발전과 함께 도서관이 구축한 서지 데이터를 웹에서 공유하고 외부 데이터와 연계할 필요성이 제기되었으며, 이에 시맨틱 웹과 링크드 데이터에 대한 논의가 확산되었다. 이러한 흐름 속에서 MARC 데이터를 RDF 기반 링크드 데이터로 변환하려는 시도가 이루어졌지만, MARC는 레코드 중심 구조로 설계되어 개체 중심 데이터 모델이나 데이터 간 의미적 관계 표현에 구조적 한계를 지니고 있었다.
이러한 한계를 보완하기 위해 미국 의회도서관에서는 링크드 데이터 환경에 적합한 새로운 서지 프레임워크인 BIBFRAME(Bibliographic Framework)을 제안하였다. BIBFRAME은 RDF 기반 구조를 활용하여 서지 개체와 관계를 명시적으로 표현할 수 있도록 설계된 도서관 특화 온톨로지로, MARC 중심 목록 환경을 링크드 데이터 기반 서지 데이터 환경으로 전환하기 위한 대안으로 제시되었다. 이에 따라 전 세계적으로 MARC에서 BIBFRAME으로의 전환이 시도되고 있으며, 국내에서도 국가서지 정책을 통해 BIBFRAME 기반 서지 데이터 환경으로의 전환이 추진되고 있다.
그러나 국내의 링크드 데이터 관련 연구와 구축 사례는 MARC 데이터를 RDF나 BIBFRAME 구조로 변환하는 기술적 측면에 주로 집중되어 있으며, 구축된 데이터를 실제의 도서관 정보서비스에서 활용하는 방안에 대한 논의는 상대적으로 부족하다. 또한 기관별로 서로 다른 데이터 모델과 어휘가 적용됨에 따라 개체 간 의미 관계와 기관 간 데이터 연결이 충분히 이루어지지 못하고 있으며, 일부 서비스는 제한적인 수준에서 운영되거나 지속적으로 활용되지 못하는 한계를 보이고 있다. 이러한 상황에서는 기존 서지 데이터를 링크드 데이터 형태로 공개한 것 이상의 실질적인 활용 가치를 확보하기 어렵다.
따라서 BIBFRAME 데이터를 링크드 데이터 형태로 발행하는 것을 넘어, 개체와 관계 중심의 의미 구조를 실제 정보 탐색 과정에서 활용할 수 있는 방향으로 활용 범위를 확장할 필요가 있다. BIBFRAME 데이터는 온톨로지 기반 구조를 통해 개체와 관계 정보를 명시적으로 표현할 수 있으며, 이러한 특성은 데이터를 지식그래프 형태로 구조화하여 활용할 수 있는 가능성을 제공한다.
최근에는 대규모 언어모델의 발전과 함께 지식그래프를 활용한 AI 기반 검색 방식이 새로운 연구 흐름으로 등장하고 있다. 그중 GraphRAG는 지식그래프와 생성형 AI를 결합한 구조로, 지식그래프의 개체와 관계 정보를 활용하여 자연어 질의를 이해하고 관련 지식을 탐색함으로써 맥락적인 응답을 제공할 수 있는 방식으로 주목받고 있다. 이러한 접근은 지식그래프의 의미 정보와 대규모 언어모델의 추론 능력을 결합함으로써 도서 추천, 연관 정보 탐색, 질의응답 등 지식 기반 정보 탐색 서비스를 구현할 가능성을 제시한다.
이에 본 연구는 BIBFRAME 데이터의 의미 구조를 실제 정보 탐색에 활용하기 위한 방안으로 지식그래프와 AI 검색 기법을 결합한 GraphRAG 기반 검색 방식을 제안하고자 한다. 이를 위해 BIBFRAME 데이터를 기반으로 지식그래프를 구축하고 GraphRAG 구조를 적용한 BIBFRAME AI 검색 모델을 개발하여, 도서관 환경에서의 적용 가능성과 실제 서비스 구현 가능성을 실증적으로 분석하는 것을 연구의 목적으로 한다.
기대효과
(한글 2000자 이내)
최근 다양한 분야에서는 지식그래프를 활용하여 기존의 데이터 중심 시스템을 지식 기반 업무 시스템으로 전환하려는 시도가 활발히 이루어지고 있다. 지식그래프는 개체와 관계를 기반으로 데이터를 구조화함으로써 데이터 간 의미적 연결을 명시적으로 표현할 수 있으며, 이러한 특성은 복잡한 정보 구조를 지닌 데이터 환경에서 의미 기반 정보 탐색과 지식 활용을 가능하게 한다. 특히 최근에는 대규모 언어모델과 결합하여 지식 기반 질의응답, 추천 시스템, 의사결정 지원 등 다양한 지능형 정보 서비스에 활용되면서 그 적용 범위가 빠르게 확대되고 있다.
그러나 현시점, 문헌정보학 분야에서 BIBFRAME 데이터를 기반으로 지식그래프를 구축하고 이를 실제 정보서비스 환경에서 활용하려는 연구는 국내외적으로 아직 제한적인 수준에 머물러 있다. 그동안 도서관 분야에서의 BIBFRAME 관련 연구는 주로 MARC 데이터를 BIBFRAME 구조로 변환하거나 링크드 데이터로 발행하는 기술적 측면에 집중되어 왔으며, 구축된 데이터를 실제의 도서관 정보관 정보서비스에 어떻게 활용할 것인지에 대한 논의는 상대적으로 부족하였다. 이러한 상황은 BIBFRAME 데이터가 지닌 온톨로지 기반 의미 구조와 데이터 간 관계 표현의 잠재력을 충분히 활용하지 못하고 있음을 보여준다. 따라서 BIBFRAME 데이터의 의미 구조를 실제 정보서비스 환경에서 활용하기 위한 구체적인 방안을 모색하는 것은 도서관 정보조직 및 정보검색 연구에서 중요한 과제로 볼 수 있다.
한편, 최근 AI 기술의 발전과 함께 지식그래프와 LLM을 결합하여 지식 기반 정보 탐색을 수행하는 새로운 검색 패러다임이 등장하고 있다. 특히 GraphRAG는 지식그래프에 표현된 개체와 관계 정보를 기반으로 관련 지식을 탐색하고 이를 생성형 AI와 결합하여 맥락적인 응답을 제공하는 방식으로 주목받고 있다.
이에 본 연구는 BIBFRAME 데이터의 온톨로지적 의미 구조를 지식그래프와 AI 검색 기술과 결합하여 실제 정보 탐색 과정에 활용하는 방안을 제시하고자 하며, 이를 통해 BIBFRAME 데이터를 단순히 링크드 데이터 형태로 발행하는 수준을 넘어, 지식 기반 정보 탐색 환경에서 활용 가능한 데이터 구조로 확장하는 가능성을 검토한다는 점에서 학술적 의의를 지닌다.
이러한 연구 결과는 향후, 도서관이 구축해 온 서지 데이터를 바탕으로 BIBFRAME 데이터 환경에서 지능형 도서관 검색 서비스를 설계하고 구현하기 위한 기초 자료로 활용될 수 있을 것으로 기대된다.
연구요약
(한글 2000자 이내)
본 연구는 국내 단위도서관 환경에서 BIBFRAME 데이터의 온톨로지적 특성을 기반으로 GraphRAG 기반 AI 검색 기법의 적용 가능성과 실제 서비스 구현 가능성을 검토하는 것을 목적으로 한다. 이를 위해 KORMARC 기반 서지데이터를 BIBFRAME 구조로 변환하고, 이를 기반으로 서지 지식그래프를 구축한 후 지식그래프와 대규모 언어모델을 결합한 BIBFRAME AI 검색 모델을 구현하고 그 성능과 적용 가능성을 평가한다.
먼저, 데이터 수집 및 전처리 단계에서는 국립중앙도서관의 KORMARC 데이터를 연구 대상으로 하며 사회과학(3XX), 문학(8XX), 역사(9XX) 분야의 단행본을 중심으로 데이터를 수집한다. 해당 분야는 번역본, 개정판, 시리즈 등 다양한 저작 간 관계가 나타나는 영역으로, 서지 개체 간 관계 표현을 분석하기에 적합한 분야로 판단하였다. 또한 저자 및 주제 개체의 식별 정확성을 높이기 위해 국립중앙도서관 전거 데이터를 함께 수집하고, Open API를 통해 데이터를 확보한다. 수집된 데이터는 필드 내 식별기호 분리, 레이블 매핑, 활용도가 낮은 필드 제거 등의 전처리를 수행하여 BIBFRAME 변환에 적합한 형태로 정제한다.
다음으로 KORMARC 데이터를 BIBFRAME 구조로 변환한다. 현재 KORMARC 데이터를 BIBFRAME으로 변환한 공개 데이터셋이 존재하지 않기 때문에, MARC21과 KORMARC의 구조를 비교 분석하고 LC의 marc2bibframe2 변환 규칙을 참고하여 변환 파이프라인을 설계한다. 변환 과정에서는 KORMARC 필드와 BIBFRAME 클래스 및 속성 간의 관계를 정의하는 규칙 기반 매핑 방식을 적용한다. 또한 일부 서지 요소가 충분히 기술되지 않은 문제를 보완하기 위하여 외부 정보원(도서정보 서비스 및 온라인 서점 메타데이터 등)을 참고하여 데이터를 보완하고. 데이터의 품질을 점검하는 과정을 거친다.
이후 변환된 BIBFRAME 데이터를 기반으로 서지 지식그래프를 구축한다. 지식그래프 구축에는 속성 그래프 데이터베이스인 Neo4j를 활용하여 저작, 표현, 주제, 저자 등 서지 개체와 개체 간 관계를 그래프 구조로 표현한다. 이를 통해 다양한 서지 개체 간 연결 관계를 기반으로 의미 기반 탐색이 가능하도록 그래프 탐색 구조를 설계한다.
다음 단계에서는 구축된 서지 지식그래프를 활용하여 GraphRAG 기반의 BIBFRAME AI 검색 모델을 구현한다. GraphRAG는 지식그래프에서 탐색된 개체와 관계 정보를 대규모 언어모델의 입력으로 활용하여 자연어 질의에 대한 검색과 응답 생성을 수행하는 구조로, 개체 간 관계와 맥락 정보를 기반으로 한 의미 기반 정보 탐색을 가능하게 한다.
마지막으로 구현된 BIBFRAME AI 검색 모델을 대상으로 정량적 성능 평가와 전문가 기반 정성 평가를 수행한다. 정량 평가는 Precision@k, Recall@k, F1-score, 응답 처리 시간 등의 지표를 활용하여 검색 성능을 측정하며, 정성 평가는 도서관 검색 서비스와 서지 데이터 구조에 대한 이해를 가진 전문가 집단을 대상으로 시나리오 기반 평가를 수행한다. 또한 평가 결과를 보완적으로 해석하기 위해 추가적인 심층 면담을 실시한다. 이러한 평가 과정을 통해 지식그래프와 AI 검색 기법을 결합한 검색 방식의 적용 가능성과 실제 서비스 구현 가능성을 종합적으로 검토한다.
키워드(Keyword)
(한글 250자 이내)
비브프레임,AI 검색,그래프RAG,지식그래프
키워드
(영어 500자 이내)
BIBFRAME,Artificial Intelligence Search,GraphRAG,Knowledge Graph

게시물 정철 / BIBFRAME 데이터의 AI 검색 기법에 관한 연구 / 2026 박사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

이재열 / “동유학안”의 집단전기학적 팩토이드 데이터 구축과 TEI-XML·RDF 연계 연구 / 2026 박사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:11

연구목표
(한글 2000자 이내)
● 연구 대상: 조선시대의 대표적 학술사 문헌인 『동유학안』.
● 1차 목표 – 팩토이드 기반 RDF 데이터 구축: 전통 지식 자원의 인물 관련 진술들을 팩토이드 단위로 해석하여 RDF로 설계·구축하되, 상충하는 기술들을 출처와 해석 과정의 투명성 보존 하에 병렬적으로 공존시키고 사료 층위와 해석 층위를 분리하여 기록함으로써 데이터의 과도한 사실화를 구조적으로 방지.
● 2차 목표 – 텍스트-데이터 연계 체계 수립: TEI-XML 디지털 판본을 제작하고 이를 RDF 팩토이드 데이터와 출처 추적 가능한 방식으로 연결하기 위해, 텍스트 앵커와 증거 지시자 간 안정적인 참조 체계를 설계. RDF-star 도입을 우선 검토하되 상호운용성을 위해 표준 실체화 표현과의 하이브리드 전략 병행.
● 양방향 참조 체계를 통해 구조화된 데이터와 원문 맥락 간의 즉각적 연동을 가능하게 하여 인물 지식 베이스의 탈맥락화 문제를 해결하며, 팩토이드 모델의 동아시아 학안류 문헌에 대한 최초의 체계적 적용으로서 전통 문헌학·사상사 연구를 디지털 집단전기학적 방법론으로 확장.
기대효과
(한글 2000자 이내)
● 사실화 문제의 구조적 해결: 팩토이드 방식의 이차 자료화를 통해 사료의 진술과 연구자의 해석을 명확히 분리 기록함으로써, 한국학 지식그래프 구축 과정에서 반복적으로 발생하는 사실화 문제(사료별 차이와 인코더의 해석이 생략된 채 트리플이 마치 확정된 사실인 것처럼 유통되는 현상)에 체계적으로 대응.
● 집단전기학적 비교 자료의 확보: 생몰·관직·학통·사승·지역·교유 등 다양한 범주의 정보를 동일 형식의 팩토이드로 축적하여, 집단 차원의 공통 특성과 관계망 구조를 비교 가능하게 하며, 상충 진술의 병존으로 학안류 문헌의 편찬적 성격과 가치 판단을 연구 대상으로 노출.
● 텍스트 원형 복원과 반증 가능성의 확보: TEI-XML 판본과 RDF 팩토이드의 증거 지시자 연결을 통해 사용자가 데이터에서 즉시 원문으로 복귀하여 문맥을 확인할 수 있게 함. 탈맥락화 위험을 제어하고 데이터 기반 연구의 반증 가능성을 보장하는 핵심 기제.
● 교육·전시·문화유산 인프라로의 재사용성: 팩토이드 모델은 인용과 해석의 관계를 데이터 구조로 학습시키는 인문 데이터 리터러시 교육의 사례로 기능. CIDOC CRM · Bio CRM 프로필의 활용으로 타 문화유산 지식그래프와의 연결 가능성 확대.
연구요약
(한글 2000자 이내)
연구 계획
● 텍스트 마크업 축: TEI-XML 인코딩을 편집학적 행위로 체계화. 텍스트 구조 분절, 증거 단위 설정, 전기·인명·인용·주석·서지 요소 집중 학습. 학안류 문헌 체제 맞춤 커스터마이징, 원형 전사·연구용 정규화 층위 병치, 팩토이드 참조용 텍스트 앵커·식별자 설계.
● 시맨틱 모델링 축: RDF, 온톨로지, SPARQL, 통제 어휘(SKOS), 출처 모델링(PROV-O), 사건·역할 개념(CIDOC CRM, Bio CRM) 단계 학습. 학안류 텍스트 반복 관계·사건 표현 최소 프로파일 정의 후 팩토이드와 결합.
● 변환·연동 축: TEI-RDF 연계 기술. XSLT·Python 파이프라인, RML 매핑 언어, URI 민팅, 지속 가능한 위치 지시 체계. 팩토이드 구축 반복 규칙화, 해석 개입 표현·대안 해석 병치·인코더 책임 기록을 편집 지침·예시로 문서화.

연구 내용
● TEI-XML 판본: 편·학안·인물 항목과 학파 서술의 이중 구조 위계적 포착. 인명·지명·관직·학파·저작 개체 표지 체계화, 식별자 기반 참조 설계.
● RDF 팩토이드: 인물·사건·관계를 사실로 단정하지 않고, 텍스트 특정 지점의 진술을 출처·책임 동반 주장 단위로 기록. 구성요소는 인코더, 출처 문서, 증거 지시자, 해석 결과. 관계형·사건형 진술로 분기, 사건형은 CIDOC CRM·Bio CRM 사건·역할 개념 제한 차용으로 구조화.
● 구현 전략: 실체화 전통 존중, RDF-star 우선 검토, 필요 시 두 방식 병치. TEI-RDF 연계는 1차-파생 RDF, 최소 앵커+독립 구축, 병렬 공진화 세 패턴 경쟁 가설로 설정, 증거 환원성·유지보수성·자동화·다중 편찬자 수용성 기준 비교. 인코더별 네임스페이스 또는 그래프 판본 분리로 해석 차이 공존 구조화.

추진 전략
● 파일럿 단계: 특정 구간 대상 TEI 규칙, 식별자, 팩토이드 유형, RDF-star 메타데이터 패턴, TEI-RDF 연결 패턴 동시 시험. 산출물: 파일럿 TEI-XML, 파일럿 RDF 그래프, 편집 지침 초안.
● 확장 단계: 확정 규칙 적용 범위 확대. 사승·학파·관직·저술·평가 팩토이드 유형 정규화, 통제 어휘 구축. 사건·역할 모델은 맥락 의존성 높은 진술에만 프로파일 방식 제한.
● 정식화 및 공개: 문서화·배포 형식·공개 패키지 정리. TEI 판본과 RDF 그래프 연결 유지 형태로 제공, RDF-star 중심 제공 기본, 필요 시 실체화 병치 포함. 플랫폼 독립적 학술 공동체 재사용 가능 데이터·지침 목표.
키워드(Keyword)
(한글 250자 이내)
동유학안, 집단전기학, 팩토이드, TEI, XML, RDF, RDF-star
키워드
(영어 500자 이내)
Records of Eastern Confucian Scholars, Prosopography, Factoid, TEI, XML, RDF, RDF-star

게시물 이재열 / “동유학안”의 집단전기학적 팩토이드 데이터 구축과 TEI-XML·RDF 연계 연구 / 2026 박사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

신은선 / AI 활용 고문헌 해석 기반 도서관 통합 메타데이터 스키마 설계 및 LOD 구현 연구 / 2026 박사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:10

연구목표
(한글 2000자 이내)
본 연구는 AI를 활용한 6단계 고문헌 해석 파이프라인(원문 입력→AI 표점→AI 용어사전 초안→전문가 확정→AI 번역→전문가 번역 확정)을 통해 생산되는 구조화 지식 데이터를 기반으로, 한국 고문헌 도서관 통합 메타데이터 스키마(K-LISA, Korean Library Integrated Schema for Ancient-documents 온톨로지)를 설계하고 LOD(Linked Open Data) 시스템을 구현하는 것을 목표로 한다.
고문헌 해석 과정에서 추출되는 인물·지명·사건·관직·개념 등의 용어 정보를 국립중앙도서관 인명전거·KORCIS 서지·VIAF와 연계하여, 고문헌 해석 작업이 곧 도서관 지식 데이터 생산 인프라로 전환되는 새로운 방법론을 정립한다.
기대효과
(한글 2000자 이내)
① AI 보조 단계적 해석 방법론 정립으로 고문헌 용어 정리·번역이 재사용 가능한 구조화 지식 데이터 생산 과정으로 전환된다.
② K-LISA 통합 메타데이터 스키마를 통해 KORCIS·VIAF·Wikidata가 LOD로 연계되어 기관 간 상호운용성이 확보된다.
③ 다국어(한·영·한문) LOD 플랫폼은 일반인·연구자·사서·외국인 한국학 연구자 모두의 고문헌 접근성을 향상시킨다.
④ 구축된 구조화 해석 데이터는 향후 고전 한문 해석 전문 AI 개발을 위한 고품질 학습 데이터로 활용 가능하다.
연구요약
(한글 2000자 이내)
본 연구는 세 단계로 구성된다.
① KORCIS 원문서비스 고문헌에 6단계 AI-전문가 협업 해석 파이프라인을 적용하여 구조화 XML 지식 데이터를 생산한다.
② 해석 용어 11종을 K-LISA 온톨로지 클래스로 체계화하고 BIBFRAME 2.0·CIDOC-CRM과의 국제 표준 정렬을 통해 통합 메타데이터 스키마를 설계한다.
③ SPARQL 엔드포인트와 다국어 인터페이스를 갖춘 개방형LOD 플랫폼을 구현하여 KORCIS·Wikidata 등 국내외 데이터와 연계한다.
키워드(Keyword)
(한글 250자 이내)
고문헌, AI 보조 해석, 도서관 전거 데이터, 통합 메타데이터 스키마, 링크드 오픈 데이터, K-LISA 온톨리지, 디지털 인문학
키워드
(영어 500자 이내)
Classical Documents, AI-Assisted Interpretation, Library Authority Data, Integrated Metadata Schema, Linked Open Data, Korean Library Integrated Schema for Ancient-documents ontology, Digital Humanities

게시물 신은선 / AI 활용 고문헌 해석 기반 도서관 통합 메타데이터 스키마 설계 및 LOD 구현 연구 / 2026 박사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

김주형 / 고지형 복원과 pLCP 분석을 적용한 고구려 교통로 복원 연구 / 2026 박사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:05

연구목표
(한글 2000자 이내)
본 연구는 공간분석을 활용하여 고구려 전 영역의 역사적 경관을 원형에 가깝게 복원하고, 확률적 최소비용경로(pLCP) 모델링을 적용하여 광역 교통망을 정량적이고 과학적으로 구축하는 것이다.
고구려 고고학은 중국 동북 지역 및 한반도 북부라는 지리적‧정치적 제약으로 인해 현지 조사가 어려워 거시적 관점의 교통로 및 경관 연구가 본격화되지 못했다. 이를 극복하기 위해 ‘경관 복원’과 ‘교통로 연구’에 집중하고자 한다. 첫째, 대규모 토목공사로 변형되기 이전의 과거 지리·지형을 복원하기 위해 1910~1930년대 정밀 근대 지형도와 1960년대 항공사진을 교차 판독하여 시공간 데이터베이스(DB)를 구축한다. 둘째, 선행 연구로 타당성이 입증된 pLCP 모델링을 고구려 전 영역으로 확장하여 도보 이동 기반의 비용함수와 몬테카를로 시뮬레이션을 결합해 확률론적 교통로를 도출한다. 궁극적으로 고지형 환경 데이터와 복원된 확률적 교통망을 고고 유적 분포 및 문헌 사료와 교차 검증함으로써 방어체계와 교통망의 유기적 관계를 규명하고, 향후 박사학위 논문에서 다루어질 산성 내 가용 인원 산정, 경지 면적 도출 등 고도화된 인구 규모 예측 및 관방체계 연구를 위한 확고한 기초 연구 인프라를 마련하는 것을 목표로 한다.
기대효과
(한글 2000자 이내)
학술적 측면에서 고구려 고고학의 지리적 현지 조사 한계를 극복하고 연구 지평을 선과 면 단위의 공간 분석으로 확장하는 획기적인 전환점이 될 것이다. 다중 시계열 공간 데이터(1910~30년대 지형도, 1960년대 항공사진, SRTM 30m DEM)를 통해 고대 경관을 복원함으로써, 그동안 미진했던 고구려의 경관과 고대 교통망을 과학적으로 입증하는 핵심 기초 자료를 제공할 수 있다.
사회적 측면에서는 도출된 고고학적 경관과 교통로 공간 좌표 데이터베이스가 향후 남북 간 역사고고학 교류가 재개된다면 유망한 지표조사 대상지를 예측하는 유용한 가이드라인으로 활용될 수 있다.
향후 발전 방향으로서 본 연구에서 다룬 pLCP 모델링과 경관 분석 방법은 백제, 신라의 관방체계 연구로 확장되어 비교사적 관점에서 범용적인 분석 방법론으로 발전할 수 있다. 또한, 발굴 해상도가 높은 국내 발굴사례를 참고한다면 경관 연구를 통한 입체적이고 거시적인 학제 간 연구로 외연을 확장할 수 있다.
연구요약
(한글 2000자 이내)
본 연구는 현지 조사가 어려운 고구려 고고학의 물리적 한계를 극복하기 위해, 다중 시계열 지리 데이터와 공간분석(GIS)을 활용하여 고구려 전 영역의 역사적 경관과 고대 교통로를 정량적·과학적으로 복원하는 것을 목적으로 둔다.
먼저 고지형 및 역사적 경관 복원은 대규모 토목공사 이전의 지형을 담고 있는 1910‧30년대 근대 지형도를 정밀 보정하고, 대로‧중로‧소로 등 교통로와 토양 피복도를 벡터화하여 시공간 데이터베이스를 구축한다. 아울러 1960년대 항공사진을 판독하여 유로의 변화 이전, 구하도와 충적평야 등 고지형 환경을 복원한다.
다음으로 확률적 경로 모델링(pLCP)을 적용한 광역 교통망을 복원하는 데, 지형 데이터에 몬테카를로 시뮬레이션 기법을 적용하여 데이터의 수직오차를 확률적으로 통제한다. pLCP 분석을 통해 도출된 교통로는 밀도분석과 근대 도로망을 고고유적의 분포 양상과 이격 거리 등을 교차 검증하여 통계적으로 유의미한 고구려 교통망을 판별한다. 이 과정에서 문헌 사료를 종합적으로 고찰하여 고구려의 간선 및 지선 도로망을 복원한다. 마지막으로 네트워크 가시권 분석을 수행하여 교통로 선상의 조망 범위와 산성의 통제 범위를 시각화하여 관방체계와 교통망의 유기적 관계를 다각적으로 고찰한다.
키워드(Keyword)
(한글 250자 이내)
고구려, 고대 교통로, 고지형 복원, 공간분석, 확률적 최소비용경로(pLCP)
키워드
(영어 500자 이내)
Koguryo, Ancient Routes, Paleo-landscape Reconstruction, Spatial analysis, Probabilistic Least Cost Path(pLCP)

게시물 김주형 / 고지형 복원과 pLCP 분석을 적용한 고구려 교통로 복원 연구 / 2026 박사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

강준모 / 중국 철학 문헌에 나타난 거울 비유의 분포 양상 – 불교의 영향을 중심으로 – / 2026 박사과정생연구장려금지원사업

作者Baro
2026年6月13日 20:04

연구목표
(한글 2000자 이내)
본 연구의 목표는 불교가 유입되는 시기에 중국 철학 문헌 내의 거울 비유의 분포 양상을 확인하는 것이다. 이를 위하여 불교 유입 전후에 거울 비유가 중국 철학 문헌 내에 분포하는 양상을 전산적으로 분석하고, 네트워크 그래프로 시각화한 뒤, 전통적인 문헌 검토를 거쳐 결과물을 정리할 것이다.
거울 비유는 마음의 작동 구조를 거울에 비유하는 것으로, 추상적인 심성론을 구체적인 사물로 설명한다. 그러므로 불교 유입 시기에 거울 비유의 분포를 확인하고, 이후 불교적 거울 비유의 영향을 확인하여, 거울 비유를 통한 불교적 심성론의 영향을 살펴볼 수 있을 것이다.
예비조사 결과, 위진 시기의 고역 불교 문헌들 중에서 반야계 문헌들에서 거울을 허상을 만드는 것으로 보는 사례가 6건 발견되었고 이러한 사례는 춘추전국시대 및 한대 문헌들에서 발견되지 않았다. 거울 비유의 분포를 문헌에서 확인하는 것을 통하여 해당 비유가 중국 내의 전통적 용례와 구별되는 계통임을 확인할 수 있을 것이다.
이를 통하여 불교적 거울 비유의 영향을 확인할 수 있다면 위진 현학 시기의 불교 심성론의 유입 과정을 더욱 선명하게 드러낼 수 있을 것으로 기대한다. 일반적으로, 위진 현학 시기의 불교의 영향은 2차 문헌들을 위주로 관찰되어 왔다. 본 연구는 이와는 다른 각도에서 첫 탐색을 시도한다는 의의가 있다.
기대효과
(한글 2000자 이내)
본 연구의 가치는 동아시아 심성론의 형성 과정에 불교가 끼친 영향이라는 거시적인 주제를 거울 비유라는 미시적인 표지를 통하여 텍스트 기반으로 실증적으로 재구성한다는 것에 있다. 이를 통하여 허상으로서의 거울이라는 소재의 전파, 그리고 이것으로 비유되는 불교적 관념론의 영향을 더욱 구체적으로 밝혀낼 수 있을 것으로 기대된다.
이 뿐 아니라, 본 연구는 동양철학 분야 이외에도 문학 작품들에 나타나는 거울 소재의 변화 연구, 거울 유물 양식의 변화사와 같은 동아시아 문학 및 미술사 연구와도 연계 가능성이 있다. 이러한 연계를 통하여 거울이라는 오래된 소재에 대한 이해를 재고할 수 있다.
마지막으로, 본 연구의 연구 방법은 AI를 사용하지 않고 오로지 문자의 배열 규칙만으로 후보군을 검출한 뒤 검출된 후보군을 분석하는 것이다. 이는 AI와 다른 경로로 작동하는 검색 방식이기 때문에, 향후 AI를 활용한 분석을 검증하는 용도로 사용할 수 있다.
본 연구의 연구 산출물은 두 종류이다. 하나는 거울 비유의 시기별 분포를 분류한 유형 지도와 이를 작성하는데 사용한 데이터셋이다. 이는 향후 다른 시대의 거울 비유 및 심성론 연구의 예비 탐색 자료로 사용될 것이다.
다른 하나는 연구에 사용한 방법론과 코드이다. 이는 지속적으로 개량하고 또 온라인으로 공개하여, 한문 기반 텍스트의 개념사 및 사상사 연구에 참고가 되도록 하려고 한다. 따라서 본 연구의 성과는 단일 논문 한 편이 아니라, 후속 연구들을 위한 기반으로 확장될 것이다.
연구요약
(한글 2000자 이내)
본 연구는 아래와 같이 세 단계의 세부 목표로 나누어진다.
①초기 중국 불교 시대의 거울 비유 분포 확인.
②비불교 문헌들의 거울 비유 분포 확인.
③불교를 통해 유입된 거울 비유의 영향 조망.

① 초기 중국 불교 시대의 거울 비유 분포 확인: 불교의 중국화 이전인 후한~위진(고역 시대)의 초기 한역 불교 문헌들에서 거울 키워드(鏡, 鑑, 鑒)의 용례를 분류한 뒤, 네트워크 그래프로 시각화하고 유형을 분류한다. 이를 통하여 동아시아 외부에서 중국에 유입된 불교적 거울 비유 유형들의 후보와 유형 정의 기준을 확보하고, 기존 연구들을 참조하여 그 기원을 추정한다.
② 비불교 문헌들의 거울 비유 분포 확인: 불교 전래 이전인 춘추~후한 시대의 철학 문헌들에서 동일한 절차를 수행한 뒤, ①의 결과와 결합하여 유형 간 연관성을 네트워크로 표현한다. 이를 통해 불교적 거울 비유와 중국적 거울 비유의 상호 연관관계를 검토한다. 이때, 역사서와 시문류는 오탐 가능성이 높으므로 필요한 경우에만 보조적으로 사용한다.
③ 불교를 통해 유입된 거울 비유의 영향 조망: ②에서 확인된 불교에서 주로 등장하는 거울 비유들이 고역 시대 이후의 불교 문헌들에서 재등장하는지를 확인한 후, 동시기 및 이후의 불교 외 분야의 철학 문헌들에 끼친 영향을 탐색한다. 이를 통하여 불교에서 비롯된 거울 비유들이 중국 문헌에서 수용되었는지의 여부와 그 양상을 확인할 수 있다.
연구에서는 각각의 단계를 결과물을 DB화 하고 네트워크 그래프로 시각화한 뒤, 문헌들의 사상적 특징을 분석할 것이다. 이를 통하여 불교를 통하여 유입된 거울 비유의 기원과 전승 경로를 확인하고, 동아시아적 거울 비유의 형성 과정에서의 불교의 영향을 밝힐 수 있을 것으로 기대한다.
키워드(Keyword)
(한글 250자 이내)
불교 철학, 중국 철학, 디지털 인문학, 거울, 심성론, 비유, 텍스트 재사용 분석.
키워드
(영어 500자 이내)
Buddhist philosophy, Chinese philosophy, Digital humanities, Mirror, Theory of Mind and Nature, Metaphor, Text reuse analysis.

게시물 강준모 / 중국 철학 문헌에 나타난 거울 비유의 분포 양상 – 불교의 영향을 중심으로 – / 2026 박사과정생연구장려금지원사업KADH / 한국디지털인문학협의회에 처음 등장했습니다.

福利公布|袁毓林《ChatGPT 和语言学的梦醒时分》赠书名单来啦

2026年6月14日 00:00

徐惠 2026-06-14 00:00 江苏

《ChatGPT 和语言学的梦醒时分》赠书名单来了!恭喜获赠读者!

袁毓林 著

商务印书馆

2026年5月出版

前言

2022 年底 ChatGPT 横空出世,不仅让人工智能走进了普通人的生活,更在语言学界掀起了一场前所未有的震动。

当机器能流畅地听懂人话、说出人话,甚至写出逻辑通顺的文章时,一连串尖锐的问题摆在了所有语言学者面前:语言还是人类独有的能力吗?我们研究了几十年的语言学理论,为何没能指导大模型取得这样的突破?站在数字工业革命的十字路口,语言学该往何处去?

这些问题,袁毓林教授在新书《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》中给出了系统且深刻的回答。

中奖名单

截至2026年6月13日24:00,《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》赠书活动已正式圆满结束!非常感谢大家踊跃参与转发、留言,积极分享自己对于语言大模型与语言学发展的见解,每一段留言,都让我们看到学术思考在公共讨论中的温度与力量。

根据活动规则:关注本公众号、转发本文至朋友圈,且单条评论点赞数达到 80 及以上的读者,按评论点赞达标时间的先后顺序,前 5位读者即可获得由商务印书馆出版、袁毓林教授所著的《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》实体书一本。现将获奖名单(微信昵称)公示如下:

@Everleaf

@冰凌冽

@李老师

请以上获奖读者于2026年6月16日24:00前在私信本公众号,提交朋友圈转发截图,并留言告知您的“姓名+手机号+收件地址”,我们将严格保密信息,仅用于寄送奖品。注:逾期未联系或无法提供有效转发截图者,视为自动放弃获奖资格。

没有中奖的朋友也请不要失望。袁毓林教授《ChatGPT 和语言学的梦醒时分》一书已在京东、当当等平台正式上架,无论你是语言学研究者、AI 从业者,还是对大模型本质好奇的读者,这本书都能为你打开一扇跨学科的窗口。

另外,“比特人文”后续还将持续推出优质学术新书赠阅、前沿讲座直播、青年学者对谈等活动,欢迎保持关注,期待下一次与你在评论区相遇。

= END =

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

新书推荐|《中世纪手稿的数字化:圣查德福音书的物质性、复原与2D&3D再现》

2026年6月12日 14:25

2026-06-12 14:25 湖北

Bill Endres 的Digitizing Medieval Manuscripts: The St. Chad Gospels, Materiality, Recoveries, and Representation in 2D&3D 以八世纪 St. Chad Gospels 为核心个案,讨论中世纪手稿数字化如何服务于文本恢复、物质性研究、保存实践与知识再呈现。

内容介绍

Bill Endres 的《中世纪手稿的数字化:圣查德福音书的物质性、复原与2D & 3D再现(Digitizing Medieval Manuscripts: The St. Chad Gospels, Materiality, Recoveries, and Representation in 2D & 3D )》以八世纪 St. Chad Gospels 为核心个案,讨论中世纪手稿数字化如何服务于文本恢复、物质性研究、保存实践与知识再呈现。全书的研究目的在于说明,数字图像并非单纯的复制品,而是一种能够揭示手稿历史层累的研究工具。作者关注羊皮纸、墨水、颜料、磨损、擦除、褪色、装订变形等物质痕迹,试图通过光学成像与后期处理,重新读取肉眼难以辨识的信息,并由此推进古文献学、书籍史和数字人文之间的对话。

本书的创新点首先体现在方法整合上。作者将多光谱成像、替代色彩空间、反射变换成像、历史照片比对和三维呈现结合起来,展示不同技术如何分别处理文字恢复、表面细节观察、颜料损耗追踪和页面形态分析等问题。其次,作者强调开放源代码软件和可操作流程,使高级成像不只属于大型实验室,也能进入普通中世纪研究者的工作方法。最后,本书把技术问题放回手稿的宗教、文化和伦理语境中,讨论文物、开放获取、社区互惠和数字授权等问题,避免把数字化理解为纯粹技术工程。

从研究方向看,本书属于数字手稿学、计算古文献学和物质文本研究的交叉领域。它既面向损毁文本的恢复,也面向手稿长期保存和数字替代物的批判评估。作者尤其关心二维图像的限制,并进一步探索三维成像和虚拟现实作为新型知识空间的可能性。其价值在于提醒研究者,数字化手稿研究的核心并非追求更清晰的图像本身,而是通过图像、算法和物质性分析,重新理解手稿作为历史物、宗教物和知识媒介的复杂生命。

作者介绍

Bill Endres

比尔·恩德雷斯(Bill Endres),数字人文学者,2009年获亚利桑那州立大学博士学位,现任美国俄克拉荷马大学英语系副教授。其核心研究方向是用数字技术挖掘中世纪早期手稿的物质性,不只关注文字内容,更聚焦纸张、刻印、笔迹等肉眼难以察觉的实体特征。至今仍保留着诗歌与修辞学方向的研究兴趣,这也是其早期学术背景的重要组成部分。

研究主线:用数字技术挖掘中世纪早期手稿的物质性,不只关注文字内容,更聚焦纸张、刻印、笔迹等肉眼难以察觉的实体特征。

研究对象:主攻英国利奇菲尔德大教堂藏的公元 8 世纪《圣查德福音书(St Chad Gospels)》,同时覆盖公元 600-850年不列颠群岛产出的所有岛屿手稿(Insular manuscripts)。

研究技术:运用多光谱成像、反射变换成像和高精度 3D 捕获技术开展工作;其中 RTI 可识别无墨干刻的隐形文字,3D 扫描精度达 0.05 毫米,还会通过对比不同年代的数字化图像追踪手稿老化情况。

学术成果:出版专著《Digitizing Medieval Manuscripts: The St Chad Gospels, Materiality, Recoveries, and Representation in 2D & 3D》,并配套发布问答拓展文章《Collecting Light: Q&A with Bill Endres》;搭建学术网站Manuscripts of Lichfield Cathedral,免费开放《圣查德福音书》和《威克利夫圣经(Wycliffe Bible)》的知识共享资源;开发了《圣查德福音书》VR 体验测试版。

学术著作

专著

  • Digitizing Medieval Manuscripts: The St Chad Gospels, Materiality, Recoveries, and Representation in 2D & 3D, Arc Humanities Press, 2019.

期刊论文

  • “Digitization as Scholarly Intervention and Interpretive Act: A Case for 3D Capture in Studying the Agency of Materiality,” Manuscript Studies, 2025.

  • “The St. Chad Gospels: Ligatures and the Division of Hands,” Manuscripta, 2015.

  • “Imaging Sacred Artifacts: Ethics and the Digitizing of Lichfield Cathedral's St Chad Gospels,” Journal of Religion, Media & Digital Culture, 2014.

书籍章节与会议论文

  • (与Jenna Gorlewicz合著) “Haptics and Digital Codicology: Reimagining Tactile Experience in the Study of Manuscripts,” 收录于 Approaches to Digital Codicology: Interdisciplinarity and Intersections, 2025.

  • “A Manuscript Wanders into VR: Oh My!,” 收录于Insular Art at the Crossroads: Ninth International Insular Art Conference 2022, 2025.

  • “Oh Lord, make haste to help me: Prayer and Imagery Atop Canon Table II in the Book of Kells,” 收录于An Insular Odyssey: Manuscript Culture in Early Christian Ireland and Beyond, 2017.

  • “A Literacy of Building: Making in the Digital Humanities,” 收录于Making Humanities Matters, Debates in the Digital Humanities Series, 2018.

  • “More than Meets the Eye: Going 3D with an Early Medieval Manuscript,” 收录于Proceedings of the Digital Humanities Congress 2012, 2014.

出版信息

作者:Bill Endres

出版社:Arc Humanities Press

出版时间:2019年(电子书)/2023年(实体书)

丛书系列:Medieval Media and Culture

ISBN:9781802701227

书籍目录

导论 

视觉奇观的时代——物质性的数字化与光之解密

第一章 

复原:从多光谱成像到替代色彩空间

第二章 

反射变换成像:表面细节的增强观察

第三章 

原本不可知之物:历史照片的数字化与比较

第四章 

神圣器物:开放获取、权力、伦理与互惠

第五章 

知识空间的危机?——虚拟现实之展望

章节简介

导论 

视觉奇观的时代——物质性的数字化与光之解密

The Age of Visual Wonder: Digitizing Materiality and Unriddling Light

导论为全书建立理论框架和问题意识。作者从手稿随时间变化的物质状态谈起,指出羊皮纸、墨水、颜料、磨损、擦除、水损和褪色都使手稿成为有待重新辨读的历史对象。以 St. Chad Gospels 为核心案例,导论说明该手稿不仅保存了福音书文本,也保存了关于制作地点、书写者、艺术家、颜料层、边注、旅行经历和损毁过程的多重线索。作者的基本关切是,数字化不能停留在图像复制和在线开放层面,还应进一步进入手稿物质性分析。通过将视觉信息转化为数值,研究者可以运用数学处理、光谱成像和三维呈现来发现肉眼难以辨认的内容。导论同时批判二维图像的局限,强调手稿页面并非平面图像,而是具有厚度、弯曲、反光、纹理和损耗轨迹的三维物体。作者由此提出全书的主轴,即以数字成像技术恢复和保存手稿物质性,并在技术、伦理和知识空间三个层面重新理解中世纪手稿。

第一章 

复原:从多光谱成像到替代色彩空间

Recovery: From Multispectral Imaging to Alternative Colour Spaces

第一章集中讨论受损文本和图像的数字恢复方法。作者首先回顾早期使用化学试剂恢复褪色文字的传统,指出这类做法常常对手稿造成不可逆损害。随后,作者转向以光学性质为基础的非侵入式恢复路径,重点说明多光谱成像如何通过紫外、可见光和红外等不同波段捕捉页面反射信息。以 St. Chad Gospels 中水损文字、擦除文字和颜料残迹为例,作者展示了不同材料对不同波长光线的吸收和反射差异。铁胆墨、羊皮纸、碳基墨水和颜料层在光谱中的表现并不相同,恢复效果必须根据具体物质条件判断。本章的一个重要贡献是将高级成像与可操作的后期处理结合起来。作者讨论 ImageJ、替代色彩空间、数学运算、假彩色和去相关拉伸等方法,说明普通彩色图像甚至手机照片也可能通过适当处理产生有价值的恢复结果。此章的核心方向是建立一种可推广的恢复流程,使中世纪研究者能够理解图像、光线和材料之间的关系,并据此选择合适的数字方法。

第二章

反射变换成像:表面细节的增强观察

Reflectance Transformation Imaging: An Enhanced View of Surface Details

第二章讨论反射变换成像在手稿表面细节研究中的作用。与第一章重在恢复受损文字不同,本章关注页面表面起伏、压痕、刻写、墨迹隆起和颜料层状态。作者特别强调干笔书写的重要性。干笔书写通常用尖笔在页面上刻出痕迹,没有墨水,因此在普通光照下极难观察。RTI 通过从多个方向记录光线照射下的表面反应,使研究者能够在数字界面中改变虚拟光源方向,从而凸显细微凹凸。作者采用 highlight RTI 方法,以手持闪光灯模拟半球光源装置,这使该技术更易于实施,也降低了设备门槛。本章不仅说明 RTI 可用于辨认难读的干笔文字,还展示其对格线、压印、墨水和颜料隆起、页面局部损伤等问题的分析价值。其研究意义在于把手稿表面从被动背景转化为可读信息来源。页面的微小物理变化可以揭示书写过程、校订方式、使用痕迹和保存状态,因此 RTI 为古文献学、书籍史和保护研究提供了更细密的观察手段。

第三章 

原本不可知之物:历史照片的数字化与比较

The Otherwise Unknowable: Digitizing and Comparing Historical Photographs

第三章把历史照片纳入数字手稿研究,讨论早期摄影资料在追踪手稿老化和保护史方面的价值。作者指出,新的数字图像并不必然比旧照片包含更多历史信息,因为手稿在过去一百多年中可能已经失去颜料、文字痕迹或页面形态。早期照片记录了手稿在某一时刻、某种光照条件和某种摄影技术下呈现出的状态,因此可以成为分析长期变化的证据。本章以 St. Chad Gospels 的 1887 年照片、photostat 副本、彩色幻灯片、黑白照片和 2010 年多光谱成像项目为材料,说明如何将历史照片数字化、对齐、叠放和调节透明度,以观察颜料脱落、页面压平、边缘变化和过去修复处理的影响。作者也提醒读者,摄影本身具有技术限制,不同相机、镜头、光源和处理方式都会影响图像结果。因此,比较历史照片既能产生关于手稿老化的新知识,也能训练研究者批判性地看待图像证据。本章的研究方向是把摄影档案转化为时间序列材料,使数字化成为研究手稿生命史和保存状态的工具。

第四章 

神圣器物:开放获取、权力、伦理与互惠

Sacred Artefacts: Open Access, Power, Ethics, and Reciprocity

第四章转向数字化的人文和伦理维度,讨论开放获取、权力关系、版权、社区利益和互惠原则。作者认为,对于仍然服务于特定宗教共同体的手稿,研究者不能只把它看作文物资源或文化遗产。St. Chad Gospels 与 Lichfield Cathedral 的宗教生活、地方记忆和共同体身份相连,因此数字化工作本身也是一种社会关系。作者借用民族志中的互惠原则,强调研究者在追求开放获取和学术成果时,需要同时考虑保存机构、宗教共同体和公众使用者的需求与担忧。本章讨论 Creative Commons 授权、数字图像传播、开放数据的实际门槛、社区参与和长期信任关系等问题。作者指出,开放获取并不自动等于公平使用,因为高分辨率图像、多光谱数据和专业软件仍可能构成技术壁垒。真正有效的数字化应提供不同层次的访问方式,使普通观众、地方共同体和专业学者都能获得相应收益。本章的重点在于把数字人文从技术执行推进到责任实践,说明图像开放必须与伦理判断、社区协商和知识回馈结合起来。

第五章 

知识空间的危机?——虚拟现实之展望

A Crisis in Knowledge-Space? A Look Toward Virtual Reality

第五章讨论三维成像、虚拟现实和知识空间问题,是全书从图像处理走向媒介理论的一章。作者认为,二维照片虽然极大扩大了手稿访问范围,却容易削弱研究者对手稿三维属性的理解。手稿页面有弯曲、厚度、纹理、颜料隆起和装订约束,阅读手稿也包含身体姿态、距离、光线和触觉想象等经验。虚拟现实和三维渲染可以在一定程度上恢复这种空间感,使手稿重新作为可被环绕、接近和观察的物质对象出现。作者提出知识空间这一概念,用来理解不同媒介如何组织知识的生产、保存和传播。他梳理了从希腊辩证法、中世纪手稿、印刷书籍到 Web 2.0 的历史变化,说明每一种媒介环境都会塑造特定的认知方式。虚拟现实因此被视为新的知识空间,既提供沉浸式研究和教学的可能,也带来技术门槛、真实性、解释控制和感官替代等问题。本章的研究方向是探索数字手稿的未来形态,尤其是三维技术如何帮助研究者重新思考物质性、临场感和知识传递。

章节选读

第一章(节选)

水损与磨损文本的修复 

Recovery of Water-D amaged and Worn Text

如前所述,第 90 页在修复水损文本时面临诸多挑战。为评估相关方法与成像技术,我将相同方法应用于两张 RGB 图像,一张是大英图书馆于 2003 年通过高分辨率彩色相机拍摄,另一张是 Bill Endres 于 2010 年通过单色相机拍摄。我将示例限定在前两行的开头部分,因为这部分能有效呈现各类损伤情况。不过将两张图像并列对比后,能发现一处细微但关键的初始差异,2010 年图像中的羊皮纸看起来更偏灰色。对两张图像的颜色直方图进行分析后,这一观察结果得到了证实。按比例来看,2010 年的图像包含更多灰色,这是由红、绿、蓝频率的更大重叠所导致的。这一差异会对修复工作产生影响。

As mentioned, page 90 presents a range of challenges for recovering water-damaged text. To assess methods and imaging, I apply the same methods to two RGB images: one taken by a high-resolution colour camera by the British Library in 2003, and the other by a monochrome camera by Bill Endres in 2010. I limit examples to the beginning of the first two lines because they provide an efficient range of damage. Placing the images side-by-side, however, reveals a subtle but important beginning difference: the parchment in the 2010 image appears greyer. Examining colour histograms for each image affirms this observation. Proportionally, the 2010 image contains more grey, produced by a larger overlap of red, green, and blue frequencies. This difference affects recovery.

数码摄影并非一门精确的科学。不同的数码图像,其像素值存在差异,这会导致直方图的形状发生变化。对于 2010 年的图像,红、绿、蓝的绘图值范围更宽,进而影响了频率的重叠。直方图的谷值与峰值形状也略有不同。出现这类差异的原因在于,即便是高端相机,其传感器的灵敏度以及校准软件也存在区别。滤镜同样会造成差异。彩色数码相机配备拜耳滤镜(Bayer filter),它会阻挡所有频率,只保留每个光电探测器所需的红、绿、蓝频率。这些滤镜的灵敏度存在波动,因此需要不同的校准软件来合并频率,生成符合人眼视觉的彩色图像。不过对于 MSI 而言,当使用 LED 照明时,滤镜并非必要,这就消除了一个重要的变量。因此,不同相机拍摄的图像,所记录的反射光数值也不同。这不仅会导致直方图存在差异,更重要的是,它会使得数码修复的效果出现波动。

Digital photography is not an exact science. For different digital images, the values for pixels vary. This causes the shapes of histograms to vary. For the 2010 image, the graphed values for red, green, and blue are wider, affecting overlap. Valleys and peaks show slightly different shapes. Such differences occur because even in high-end cameras, the sensitivity of sensors and their calibrated software differ. But filters also cause variations. A colour digital camera has a Bayer filter blocking all frequencies except the red, green, or blue desired for each photodetector. The sensitivity of these filters fluctuates, requiring differently calibrated software to merge frequencies and produce a colour image that is realistic to the human eye. For MSI, when LED lighting is used, however, filters are unnecessary. This eliminates a significant variable. Therefore, different cameras produce images that record different values for reflected light. This causes histograms to differ, but importantly, it causes the success of digital recovery to vary.

对于第 90 页,使用 MSI 针对非可见频率拍摄的图像,最多只能实现有限的修复。紫外线光能够带来最佳效果,它能提升铁胆墨水(iron gall ink)书写的字母残留的可见度,这种墨水中的铁会吸收紫外线,而周围的羊皮纸则会反射更多紫外线。此外,由于羊皮纸反射的紫外线比渗透到透印文本中的更多,透印现象会逐渐消退。不过,水损导致变暗的羊皮纸会削弱这一积极效果。变暗的羊皮纸会吸收更多紫外线,因此对比度的提升十分微弱。虽然修复效果有限,但这些结果显示出像素值存在比例差异。这说明将可见与非可见频率的图像进行除法运算,可以增强墨水的痕迹,显现出受损文本的形态,这对于目前仍充满谜团的第一行文本而言意义重大。

For page 90, images taken with MSI for nonvisible frequencies produce, at best, minor recoveries. Ultraviolet light generates the best results. It increases the visibility of remnants of letters written in iron gall ink, the iron absorbing it while surrounding parchment reflects more of it. Furthermore, because parchment reflects more ultraviolet light than penetrates to the bleed-through text, bleed-through fades. However, parchment darkened by water-damage diminishes this positive gain. Darkened parchment absorbs more ultraviolet light. Contrast, therefore, increases only faintly. While recoveries are marginal, they indicate proportional differences for values of pixels. This suggests that dividing images of visible and nonvisible frequencies can enhance traces of ink and reveal patterns for damaged text, significant for the first line, still riddled in mystery.

在确认该墨水并非碳基墨水后,我们发现红外频率无法提供额外信息。例如,850 nm 的图像会让受损文本的残留痕迹消失,其更长的波长会穿透这些痕迹,反而将修复工作引向错误的方向。如前所述,铁胆墨水并不会像碳基墨水那样吸收红外光,因此这类频率最初无法提升对比度。不过,红外频率能够捕捉到比受损墨水更多的透印信息,这就带来了新的机会。通过数学运算,它们提供了另一种生成对比度的可能方式。

Confirming that ink is not carbon-based, infrared frequencies provide no additional information. For example, the image for 850 nm makes remnants of damaged text disappear. Its longer wavelengths pass through them, moving recovery in the wrong direction. As mentioned, iron gall ink does not absorb infrared light as carbon-based inks do; consequently, they are initially unbeneficial for increasing contrast. However, the ability of infrared frequencies to capture more bleed-through than damaged ink presents an opportunity. Through mathematical operations, they provide another possible way to generate contrast.

为尝试进行修复,并为数学运算筛选合适的频率,我将 RGB 多光谱图像分别除以其 638 nm 红、535 nm 绿和 465 nm 蓝通道。这一操作立刻得到了结果。这三个通道都大幅降低了透印带来的干扰,不过除以 465 nm 后,第一行的受损文本显现得最为清晰,即 tori suo。Latin Vulgate 证实了这一修复结果。第 90 页的内容是对 Matthew 20:8 的收尾,这则寓言讲述了工人们在不同时间开始工作,最终却获得相同报酬的故事。武加大译本中对应的预期词汇是 procuratori suo。第 89 页的结尾是 procura,因此 tori 补全了这个单词。suo 在三个结果中都清晰可见,在除以 465 nm 的 RGB 图像中最为明显。通过进一步的除法运算,465 nm 展现出了优化修复效果的潜力,也可用于修复其他存在水损文本的页面。不过 638 nm 和 535 nm 的结果同样有潜力,它们在不同的组合中可能会发挥作用。因此,MSI 拍摄的图像为修复工作提供了大量的可能性。不过,将 RGB 多光谱图像除以非可见频率的尝试并未成功。运算结果显示,850 nm 的像素值与 RGB 图像的像素值比例相似,完成除法后,受损文本的痕迹与透印现象都没有明显变化。在光谱的另一端,除以 365 nm 紫外线的结果同样令人失望,透印的干扰依然过强。不过受损文本显现为明亮的红棕色,这说明找到合适的配对进行除法运算或许能得到不错的结果。

To attempt recovery and identify further frequencies for mathematical operations, I divided the RGB multispectral image by its 638 nm (red), 535 nm (green), and 465 nm (blue) channels. This produced immediate results. All three dramatically decrease the interference caused by bleed-through; however, dividing by 465 nm makes the damaged text on the first line emerge most clearly: tori suo. The Latin Vulgate affirms this recovery. Page 90 begins by concluding Matthew 20:8, a parable about labourers starting their work at fluctuating times but all receiving identical pay. The expected Vulgate words are procuratori suo (his steward). Page 89 ends with procura; therefore, tori completes this word. The suo is evident in all three results, most clearly in the RGB image divided by 465 nm. Through further division, 465 nm shows promise for refining recoveries or producing them for other pages with water-damaged text. However, results from 638 nm and 535 nm also show promise. They could prove effective in different combinations. Therefore, images from MSI provide an excess of possibilities for producing recoveries. Dividing the RGB multispectral image by nonvisible frequencies, however, proved unsuccessful. Division demonstrates that 850 nm has proportionally similar values for pixels as the RGB image. Once divided, traces of damaged text and bleed-through remain relatively the same. At the other end of the spectrum, dividing by 365 nm (ultraviolet) produces likewise disappointing results. Bleed-through still interferes too strongly. However, the damaged text emerges as a bright reddish brown; therefore, finding the appropriate division partner might produce good results.

对于所有修复后的文本,生成伪彩色可以提升对比度。ImageJ 提供了许多颜色表(Look-Up Tables,luts)来实现这一功能。对于受损文本,伪彩色能够提升除以 465 nm、535 nm 和 638 nm 后的图像清晰度,对紫外线图像也有一定的改善作用。如前所述,应用 luts 需要进行实验,同一个 lut 并非总能为每一次修复都提升清晰度。

For any recovered text, generating false colour can increase contrast. ImageJ provides a number of luts for doing so. For the damaged text, false colour enhances clarity for dividing by 465 nm, 535 nm, and 638 nm, and some improvement for ultraviolet. As mentioned, applying luts requires experimentation. The same lut does not always add clarity to each instance of recovery.

无论是 e-Codices 还是 Digital Walters,随着可用的高分辨率手稿图像数量不断增加,中世纪研究者获得了前所未有的机会来深度修复文本内容。这也使得将 RGB 图像拆分为红、绿、蓝三个通道成为了一种极为重要的方法。拆分 RGB 图像本身通常无法直接完成修复,它往往只是第一步。例如,当我拆分大英图书馆拍摄的照片时,得到的三个通道并没有立刻呈现出结果。但将它们与彩色图像进行除法运算后就有了变化。三个通道的运算结果中,透印现象都有所减轻,其中除以红色和蓝色通道的两个结果中,出现了修复效果,分别是 tori 中的 to 和 suo 中的 su。生成伪彩色进一步优化了这些结果,在除以蓝色通道的结果中,我还修复出了 tori 中的 ri。

Whether e-Codices or the Digital Walters, because of the large and growing number of available high-resolution images of manuscripts, medievalists have unprecedented opportunities for recovering profound levels of content. This makes splitting RGB images into their red, green, and blue channels a highly significant method. Splitting RGB images tends not to generate recoveries in their own right. It tends to be the first step. For example, when I split the photograph taken by the British Library, the resulting three channels did not immediately provide results. However, dividing them into the colour image does. In all three, bleed-through lessens; in two, dividing by red and blue, recoveries occur: to of tori and su of suo. Generating false colour enhances these results. For dividing by blue, it leads to recovering ri of tori.

必要时,这些修复结果可以指导后续的数学运算。对于第 90 页的开头部分,虽然目前的结果已经可靠,但如果其他页面的字母更难修复,对单个频率进行除法运算或许能得到更精细的修复效果,并提供特定的处理方法。因此,在已有良好结果的基础上,比如除以 465 nm 的结果,进行下一步操作是合理的。由于 638 nm 的结果是第二好的,我也使用了这个频率,它与 465 nm 的差距足够大。对于铁胆墨水,我更倾向于用较高波长除以较低波长,这会让羊皮纸比修复后的文本更暗,我发现明亮的修复痕迹更容易辨认。不过作为测试,我也将它们反转了,看看更亮的羊皮纸是否能让结果更清晰。

When necessary, results from these recoveries can guide further mathematical operations. For the beginning of page 90, while the results are secure, dividing individual frequencies might produce refined recoveries and provide specific approaches if letters on other pages prove more resistant. Building off good results, such as dividing by 465 nm, therefore, provides a next logical step. Since 638 nm produced the second-best results, I also use this frequency. It provides a nice distance from 465 nm. For iron gall ink, I prefer to divide higher wavelengths by lower ones. This causes parchment to be darker than recoveries. I find bright recoveries more discernible. As a test, however, I reverse them: in case lighter parchment clarifies results.

对频率进行除法运算后,得到的结果通常是页面偏黑,可能只有微弱的可辨认文字行痕迹。对于第 90 页,当用 638 nm 除以 465 nm 时就是这种情况。不过调整直方图后,文本就显现出来了。此时像素值的范围大约在 0 到 3.4804 之间,当将这些值拉伸到完整的 0 到 255 范围后,文本就显现出来了。查看前两行的开头部分,可以发现修复效果十分显著。

Dividing frequencies normally produces results in which pages appear blackish, with perhaps faint hints of discernable lines of script. For page 90, this is the case when dividing 638 nm by 465 nm. Adjusting the histogram, however, reveals the text. In this case, values for pixels range from about 0 to 3.4804. When these values are stretched to cover the full range (0 to 255), the text emerges. A view of the beginning of the first two lines reveals strong recovery.

进一步的实验持续带来了良好的结果,将可见频率互相进行除法运算,都能得到修复效果。例如,用 535 nm 除以 505 nm,以及用 450 nm 除以 592 nm,都能清晰呈现受损文本。在第二个例子中,为了展示修复后的文本呈现为更暗的状态,我用较高频率作为除数。不过我还是更偏好更亮的文本。但羊皮纸的瑕疵或变色可能会让其中一种方式更有效。

Further experimenting continued to produce good results. Dividing visible frequencies into each other all generated recoveries. For example, dividing 535 nm by 505 nm and 450 nm by 592 nm provide good views of the damaged text. In the second example, to demonstrate recovered text appearing darker, I divide by the higher frequency. Again, lighter text is my preference. However, blemishes or discolouration of parchment can cause one or the other to be more beneficial.

紫外线频率的效果依然没有达到预期。将其他各个频率分别除以 365 nm 后,只有一个图像得到了不错的修复效果,即用 850 nm 除以 365 nm。不过这个图像的清晰度,还是比不上通过可见频率除法得到的结果。修复结果可能难以预测,有时手稿的材质与状态会以无法预期的方式影响反射光,导致我们无法获得预期的效果。因此,指导原则虽然重要,但也仅仅是指导而已。面对众多的选择,这些原则能够为我们的方法提供指引,使其系统化。但数码修复本身依然需要不断尝试与实验。

The ultraviolet frequency continued in its trend of not being as beneficial as expected. Dividing each of the other frequencies by 365 nm generates only one image that produces good recoveries: 850 nm by 365 nm. This image, however, provides less clarity than those derived from dividing visible frequencies. Results can be unpredictable. Sometimes, the materiality and condition of a manuscript affect reflected light in ways that do not provide the expected leverage. Therefore, guiding principles are important, but they are just that, guidance. For an otherwise overwhelming number of options, they direct and systematize the approach. However, digital recovery requires play and experimentation.

对于通过除法进行的修复,彩色相机拍摄的图像也提供了更多的机会。不过如前所述,拆分这类图像只能得到三个可用于除法运算的图像,每个通道对应一个,即红、绿、蓝。因此,可能的运算方式仅限于红除以绿、红除以蓝、绿除以蓝,如果需要也可以反转。拆分大英图书馆拍摄的照片后,绿色通道除以蓝色通道的结果得到了稳定的修复效果。应用不同的 luts 生成伪彩色,进一步优化了这些结果。另一种生成伪彩色并完成修复的方式,是合并与 RGB 图像预期不同的频率。例如,可以将绿、蓝和紫外线频率分别对应红、绿、蓝通道,合并生成伪彩色图像。

For recovery by division, images produced by a colour camera also provide further opportunities. However, as mentioned, splitting them produces only three images for division, one for each channel: red, green, and blue. Therefore, the possibilities are limited to dividing red by green, red by blue, and green by blue (and the reverse, if preferred). Splitting the photograph taken by the British Library generated solid recovery for the green-channel divided by blue. Applying different luts generates false colour, enhancing these results. Another way to generate false colour and recovery is to merge different frequencies than those expected for an RGB image. For example, a false colour image can be generated by combining green, blue, and ultraviolet frequencies for the red, green, and blue channels.

不过对于第 90 页,以各种组合合并频率都没有得到有益的结果。但依然存在其他的可能性,除法运算后的频率结果也可以进行合并。例如,将红外频率作为红通道,将一个除法运算后的频率作为绿通道,即 592 nm 除以 505 nm,再将紫外线作为蓝通道,合并后得到了极佳的结果。紫外线频率将更多受损文本的痕迹带入 RGB 图像中,而红外频率则淡化了透印现象。不过对于绿通道而言,用较高频率除以较低频率这一步十分关键,这会让修复后的文本比周围区域更亮,生成所需的对比度。如果将除数与被除数反转,铁胆墨水的痕迹就会变得更暗,不过在我看来,这会让它们的细节更难辨认。

For page 90, however, merging frequencies in various combinations did not generate beneficial results. Nonetheless, further possibilities exist: the results from divided frequencies can also be merged. For example, merging an infrared frequency for the red-channel, a divided frequency for the green (592 nm divided by 505 nm), and the ultraviolet for the blue produces excellent results. The ultraviolet frequency brings more traces of damaged text into the RGB image while infrared fades the bleed-through. However, for the green-channel, dividing the higher frequency by the lower frequency is significant. This causes recovered text to be lighter than its surroundings, generating needed contrast. When the divisor and dividend is reversed, the traces of iron gall ink become darker; however, to my eye, this makes their nuances more difficult to see.

最后,合并通道并不局限于只有一个通道包含除法运算后的频率,两个甚至全部三个通道都可以包含这类结果。在之前的合并图像中,蓝通道效果最好的除法运算结果是 535 nm 除以 465 nm。为了找到这个合适的除法组合,我最初在蓝通道的大致范围内测试结果,之后再逐步扩展。为了给红通道也加入一个除法运算后的结果,我发现 700 nm 除以 625 nm 是个不错的选择。再次说明,优化修复效果需要不断实验。将原始 RGB 图像分别除以三个通道,能让我们初步了解透印与受损文本是如何反射光线的。基于这些结果,我们可以开展有针对性的实验,提升得到有效结果的概率。

Finally, merging channels is not limited to a sole channel containing a divided frequency. Two or all three channels can contain them. In the prior merged image, one of the best divisions for the blue-channel turned out to be 535 nm divided by 465 nm. To find this division, I initially tested results within the general range of the blue-channel and then expanded them. To include a third divided result for the red-channel, I found that 700 nm divided by 625 nm was a good choice. Again, enhancing recoveries requires experimentation. Dividing the original RGB image by its three channels provides initial understanding about how bleed-through and damaged text reflects light. From these results, informed experimentation can proceed, increasing the chance of generating revealing results.

以上内容来自书籍官网与学者主页

https://www.arc-humanities.org/9781802701227/digitizing-medieval-manuscripts/

https://www.ou.edu/cas/english/people/bill-endres

经数字人文资讯小编翻译整理而成

如需转载,请后台私信联系

编辑 丨魏翔

校对 丨洪冰凤

排版 丨罗斯鹏

阅读原文

跳转微信打开

The (Im)possibility of Autonomous Feminist Infrastructures

…promises disguised as democratisation of technology and agency, take the semblance of autonomy but are in fact a neo-liberal and individualistic Faustian bargain. Ownership is an illusion, and access is subject to capitalist impulses. Through critical reflections on building a speculative feminist server, The (Im)possibility of Autonomous Feminist Infrastructures’ emphasises the need for a plurality of infrastructures, restoring intimacy with technology, and the collective joy of building together.

Visions in the Machine: Automated Tagging of the William Blake Archive

What can multimodal AI actually see in William Blake's visionary art? This pilot study finds that AI reliably retrieves Blake's objects and motifs but falters, measurably, at his personal iconography, mapping precisely where machine assistance ends, and scholarly interpretation begins.

What We Read while Looking Up from the Book: A Review of The Routledge Companion to Libraries, Archives, and the Digital Humanities

Any act of reading is embedded in a system of systems that is perhaps nowhere more intricate and complex than in libraries and archives. The Routledge Companion to Libraries, Archives, and the Digital Humanities, edited by Isabel Galina Russell and Glen Layne-Worthey, is both a testament to and a touchstone for this complexity.
❌