국립중앙도서관(관장 김희섭)은 그동안 전문가 중심으로 활용되던 국가서지 데이터를 일반 국민과 기업에서도 폭넓게 활용할 수 있도록 개방한다. 국립중앙도서관은‘25년 국가중점데이터 개방 지원사업*’으로 국가서지 Linked Open Data(LOD)** 기반 OpenAPI 서비스를 개발하였으며, 해당 데이터는 공공데이터포털(data.go.kr)을 통해 제공된다.
* 국가중점데이터 개방 지원사업: 수요와 가치가 높은 데이터를 선정하여 개방을 지원하는 행정안전부 공모사업
** Linked Open Data: 누구나 자유롭게 활용 가능한 데이터를 웹에서 연결하여 사용할 수 있도록 구조화된 형식으로 발행한 데이터
국가서지는 우리나라에서 생산·유통되는 출판물과 지식정보자원을 체계적으로 구축한 데이터로, 제공되는 국가서지 OpenAPI는 민간, 연구자, 공공기관 등 다양한 이용자층의 수요를 충족시킬 수 있도록 ▲서지정보(단행본, 연속간행물, 온라인자료 등의 메타데이터), ▲저자정보(개인·단체 저자의 정보), ▲주제정보(국립중앙도서관 주제명표목표(NLSH) 정보), ▲도서관 정보(전국 도서관 관련 정보), ▲인터링킹 정보(국내외 서지·저자·주제 데이터간 연결 정보) 등 5종으로 개방하여 데이터의 접근성과 재활용성을 강화했다.
국립중앙도서관은 이전에도 국가서지 Linked Open Data(LOD)를 제공해 왔으나 전문적인 질의언어(SPARQL) 사용이 필요해 관련 기술에 익숙하지 않은 일반인이 활용하는 데는 어려움이 있었다.
이번에 서비스를 시작한 국가서지 OpenAPI는 이러한 장벽을 낮췄다. 질의언어에 대한 전문 지식 없이도 손쉽게 국가서지 데이터를 활용할 수 있으며, 특히 응답데이터는 구조화된 데이터 형식인 XML과 JSON으로 제공되어 다양하게 활용할 수 있도록 하였다.
이번 개방된 데이터는 약 3,000만건으로 국립중앙도서관은 앞으로도 국가서지 데이터의 지속적인 현행화와 품질 개선을 추진하는 한편, AI 학습 및 지능형 서비스 활용을 고려한 데이터 개방을 단계적으로 확대해 나갈 계획이다.
이현주 디지털정보기획과장은 “이번 국가서지 OpenAPI 개방은 공공데이터의 실질적인 활용을 확대하는 중요한 기반을 마련한 것”이라며, “국민 누구나 국가지식정보를 자유롭게 활용할 수 있는 데이터 생태계를 지속적으로 조성해 나가겠다.”라고 밝혔다.
한국 현대시의 섬세한 감정을 AI가 이해할 수 있을까요? 한국학중앙연구원 디지털인문학연구소에서 개발한 KPoEM(Korean Poetry Emotion Mapping) 데이터셋이 이 질문에 답을 제시합니다.
KPoEM은 김소월, 윤동주, 이상, 임화, 한용운 등 한국의 대표 시인 5인의 시작품 483편을 44개의 감정 범주로 세밀하게 분석한 최초의 한국시 감정 데이터셋입니다.
연구 책임자: 김병준 교수 (한국학중앙연구원 한국학대학원 인문정보학)
연구 보조원: 지해인(박사과정), 임이로(석사과정), 구슬(석사과정)
라벨러(Annotator): 정송이(박사과정), 윤종훈(석사졸업)
논문 정보
Lim, I., Ji, H., & Kim, B. (2025). Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling (No. arXiv:2509.03932). arXiv. https://doi.org/10.48550/arXiv.2509.03932
왜 KPoEM이 필요한가?
기존의 한국어 감정 분석 데이터셋인 KOTE(Korean Online That-gul Emotions)는 온라인 댓글 5만 건을 기반으로 구축되었습니다. KOTE는 일상적인 온라인 텍스트 분석에는 유용하지만, 문학 텍스트 특히 시의 감정을 분석하는 데는 근본적인 한계가 있었습니다:
KOTE의 한계
언어 스타일: 인터넷 댓글의 직접적이고 단순한 표현 vs 시의 은유적이고 다층적인 표현
감정 표현: 댓글의 즉각적인 감정 반응 vs 시의 절제되고 함축적인 정서
문맥 이해: 댓글의 단편적 맥락 vs 시의 전체적 의미 구조와 상징
KPoEM은 이러한 한계를 극복하고자 시 텍스트에 특화된 최초의 한국어 감정 데이터셋으로 개발되었습니다.
# 시 텍스트 감정 분석 예시
example = '''
나의 생은 미친듯이 사랑을 찾아 헤매었으나
단 한번도 스스로를 사랑하지 않았노라
'''
# threshold=0.3 설정 시, 확률값이 0.3 이상인 감정만 반환
result = kpoem_model.analyze(example, threshold=0.3)
타이완 법고불교학원에서 성엄 법사(聖嚴法師, Shèngyán Fǎshī, 1930/1931년 ~ 2009년)의 연보를 대상으로 진행하고 있는 지식그래프 편찬 프로젝트에 대해서 간략한 소개가 있었습니다. 아직 프로젝트가 완전히 종료되지 않은듯 하나, 대략적인 진행을 살펴볼 수는 있었습니다.
기존에 있던 XML 데이터셋을 지식그래프로 전환하고자 함. 그래야 개별 요소간의 의미 관계가 온전해 지니!
《瑜伽師地論》資料庫電子佛典製作與應用之研究 Yogācārabhūmi Database:A study on Creation and Application of Electronic Buddhist Texts
《유가사지론》(Yogācārabhūmi)은 인도 대승불교 유가행파(瑜伽行派)와 중국 법상종(法相宗)의 연원이며, 현장(玄奘)이 서역으로 경전을 구하러 간 동기이기도 합니다. 내용은 요가 수행자(선승)의 수행 단계와 경지에 관한 백과사전입니다.
본 데이터베이스는 TEI 태그셋(tag sets)을 사용하여 《유가사지론》의 이역본, 주석서, 산스크리트어 원전, 티베트어 번역본 등 전자 자료를 마크업(markup)하고, 그 구조적 특징(structural features)을 상호 참조(cross-reference) 표시하여 서로 대조할 수 있도록 하였습니다.
내용 설명 「내용 약어 및 약호」를 참고하십시오.
인터페이스 기능 「대조 열람 인터페이스」, 「전체 텍스트 검색」, 「해제(解題)」, 「다운로드」 및 「인용 복사」 등의 기능을 제공합니다.
대규모 언어 모델(Large Language Models, LLMs)은 많은 “인공지능”(AI) 애플리케이션의 기반이지만, 훈련 데이터에 존재하는 사회적 편견을 그대로 재현하는 것으로 알려져 있습니다. 그러나 이러한 문제를 측정하고 통제하며 완화하기 위한 자원은 제한적입니다. 스테레오타입 편견을 식별하고 완화하는 연구는 주로 영어에 집중되어 왔으며, 다국어 환경에서 LLM의 급속한 발전을 따라가지 못하고 있습니다. AI 시스템에서 스테레오타입 편견을 감지하는 능력을 더욱 발전시키기 위해, 우리는 새로운 다국어 데이터셋인 SHADES를 소개합니다. LLM이 학습할 수 있는 문화적으로 특정한 스테레오타입을 조사하기 위해 설계된 SHADES는 37개 지역에서 300개 이상의 스테레오타입을 포함하며, 16개 언어로 번역되고 다국어 스테레오타입 분석을 지원하는 다양한 특징들로 주석 처리되었습니다. 모든 언어의 모든 진술은 템플릿과 쌍을 이루어 새로운 평가 데이터의 무제한 생성을 위한 리소스로 사용됩니다. 우리는 모델과 언어에 따라 스테레오타입이 인식되고 반영되는 방식에서 상당한 차이를 드러내는 일련의 탐색적 평가를 통해 데이터셋의 유용성을 보여줍니다.
We are pleased to announce that an Online Database of English Translations of Korean Literature is now open to the public. Developed over three years (2022-2025), it is currently the most user-friendly, extensive, and accurate database of English translations of Korean literature. We believe that this database will serve as a vital tool for researchers, educators, students of Korean literature, and the broader public in locating available translations of Korean literary works. We also hope that it will serve as a foundational resource for future research that incorporates translation data into further insightful analyses of literary and cultural phenomena.
Project background: This searchable database of English translations of Korean literature is a project that evolved from the field-defining edited volume The Routledge Companion to Korean Literature (edited by Heekyoung Cho, 729 pages, published in 2022). One of the key initiatives within the volume was the creation of a database of English translations of Korean literature, intended to be paired with scholarly resources for both teaching and research purposes. To briefly introduce the volume, it comprises 35 chapters written by leading scholars in the field and holds particular significance as the most comprehensive collection to date of English-language articles on Korean literature. The primary objective of this volume is to provide thorough, reliable, and enduring reference work not only for research but also for teaching in the fields of Korean literature, cultural studies, and related disciplines. In an effort to provide invaluable resources for researching, teaching, and studying Korean literature, the Companion includes as an appendix an extensive list of English translations of Korean literature, originally compiled by Hyokyoung Yi. Aware of the limitations of static, unsearchable printed data, we have collaborated with various individuals and units to develop an expanded, searchable online database based on the list presented in the Companion.
PIs: Heekyoung Cho (Associate Professor, Department of Asian Languages & Literature, University of Washington; hchohcho@uw.edu) Hyokyoung Yi (Director for Tateuchi East Asia Library, Korean Studies Librarian, University of Washington; hkyi@uw.edu)
Acknowledgement: This online database was made possible through the generous support of the Tateuchi East Asia Library, the Simpson Center for the Humanities, and the Center for Korea Studies at the University of Washington.
Data Commons는 데이터를 서로 연결하고 공유하기 쉽게 만들고자 하는 오픈 소스 프로젝트입니다. 마치 거대한 지식 그래프 (Knowledge Graph)와 같다고 할 수 있죠. 다양한 분야의 데이터를 한 곳에 모아 연결하고, 이를 통해 새로운 통찰력을 얻고 문제를 해결하는 데 도움을 주고자 합니다.
Data Commons의 목표
데이터 민주화 (Democratization of Data): 누구나 쉽게 데이터에 접근하고 사용할 수 있도록 하여 데이터 활용의 장벽을 낮추고자 합니다.
데이터 연결 (Connecting Data): 서로 다른 데이터 소스를 연결하여 데이터 간의 연관성을 찾고, 이를 통해 새로운 가치를 창출합니다.
데이터 기반 문제 해결 (Data-Driven Problem Solving): 데이터를 활용하여 사회 문제, 과학적 발견, 비즈니스 의사 결정 등 다양한 분야의 문제를 해결하는 데 기여합니다.
Data Commons의 주요 특징
개방성 (Open Source): 누구나 Data Commons의 개발에 참여하고 기여할 수 있습니다.
확장성 (Scalability): 다양한 분야와 대량의 데이터를 처리할 수 있도록 설계되었습니다.
표준화 (Standardization): Schema.org와 같은 표준 스키마를 사용하여 데이터의 호환성을 높이고 재사용성을 촉진합니다.
다양한 API 제공: REST API, Python API, SPARQL API 등 다양한 API를 제공하여 개발자들이 쉽게 Data Commons의 데이터에 접근하고 활용할 수 있도록 합니다.
Data Commons의 기술적인 내용
지식 그래프 (Knowledge Graph):
Data Commons는 데이터를 노드(node)와 엣지(edge)로 구성된 그래프 형태로 표현합니다.
노드는 개체(entity)를 나타내고, 엣지는 개체 간의 관계(relationship)를 나타냅니다.
예를 들어, “서울특별시”는 노드로, “인구”는 엣지로, “서울특별시 – 인구 -> 약 970만 명”과 같이 표현할 수 있습니다.
Data Commons는 개발자들이 데이터에 쉽게 접근하고 활용할 수 있도록 다양한 API를 제공합니다.
REST API: 웹 기반의 API로, HTTP 요청을 통해 데이터에 접근하고 쿼리할 수 있습니다.
Python API: 파이썬 개발자를 위한 API로, 파이썬 코드를 통해 Data Commons의 데이터에 접근하고 분석할 수 있습니다.
SPARQL API: 그래프 데이터를 쿼리하기 위한 표준 질의 언어인 SPARQL을 지원합니다.
데이터 정제 및 통합 (Data Cleaning and Integration):
Data Commons는 다양한 소스에서 수집된 데이터를 정제하고 통합하는 과정을 거칩니다.
데이터의 중복을 제거하고, 오류를 수정하고, 일관성을 유지하여 데이터의 품질을 향상시킵니다.
Data Commons의 활용 사례
공공 데이터 (Public Data): 정부 기관에서 공개하는 인구 통계, 경제 지표, 환경 데이터 등을 통합하여 시민들이 쉽게 활용할 수 있도록 합니다.
의료 데이터 (Healthcare Data): 질병 정보, 임상 시험 결과, 의학 논문 등을 연결하여 의학 연구를 지원하고 새로운 치료법 개발에 기여합니다.
과학 데이터 (Scientific Data): 다양한 과학 분야의 데이터를 통합하여 연구자들이 데이터를 공유하고 협업할 수 있는 환경을 제공합니다.
비즈니스 데이터 (Business Data): 기업의 재무 정보, 시장 데이터, 고객 데이터 등을 분석하여 비즈니스 의사 결정을 지원합니다.
결론
Data Commons는 데이터를 연결하고 공유하고 활용하는 방식을 혁신하는 프로젝트입니다. 방대한 데이터를 통합하고 분석하여 사회 문제 해결, 과학적 발견, 비즈니스 의사 결정 등 다양한 분야에 기여할 잠재력을 가지고 있습니다. 기술적으로는 지식 그래프, 표준 스키마, 다양한 API 등을 활용하여 데이터의 접근성과 활용성을 높이고 있습니다. Data Commons는 데이터를 통해 더 나은 세상을 만들고자 하는 목표를 향해 나아가고 있습니다.
The Japan Biographical Database (JBDB) is a bilingual, open access database aimed at accumulating information on historical figures and their biographical data related to Japan. Using a JavaScript web application, we have set up a PostgreSQL database based on the construction of the China Biographical Database (CBDB) to accumulate data and edit its functions. JBDB provides the base for network analysis, spatial analysis, and prosopography, as well as biographies. As of October 2024, about 15,000 historical figures have been added with a concentration in the Tokugawa and Meiji eras.
The objective is to keep expanding the data by inviting related projects to join and share their materials on this platform. Currently, thirteen projects work independently with JBDB and the symposium will showcase some of them not last to illustrate how adjustable and diverse the components are. We also invited some other projects from which we have been learning or hope to do so in the future.
Program:
1. Yoshitaka Yamamoto (NIJL): Visualizing the Jūjun kagetsu Album (1827)
2. Jingyi Li (Occidental College): Networks of Profit in Nineteenth-Century Literati Network
3. Takahashi Yasuhiro (Tama University): Rai Shunsui and Confucian Texts
4. Maki Nakai (Meiji University): The Origins and Development of Antiquarianism
5. Nadia Kanagawa: Challenges and Opportunities in Exploring theNetworks of Izumi Province in the Diary of Kujō Masamoto, 1501–1502
6. Iris Haukamp (TUFS): Early Films and Creative Chaos: Establishing Links and Lineages in Japanese Cinema
7. Nakamura Satoru (Historiographical Institute The University of Tokyo): Development of a Retrieval System Using NDLOCR for Print Images of the Historiographical Institute The University of Tokyo
8. James Morris (Waseda University): Pre-Modern Christianity in Japan: The Limitations and Potentialities of Digital Methods
9. Marie Yasunaga (College of Japanese Language and Culture, Tsukuba University/Independent Scholar, the Netherlands): Gender in Early Modern Streets of Edo, Illuminated through Visual Annotation using IIIF
10. David Slater (Sophia University): Refugee Voices Japan
11. Anatole Bernet (Sciences Po Center for History, Paris): Academic Kinship and Endogamy among Imperial Japan’s Health Specialists
12. Leo Born (Qwyga): On the Road: Biographical Itineraries in the JBDB
We will give an update once the full program with details is up on the homepage.
*JBDB is one of the collaborative projects of NIJL’s “Project to Build an International Collaborative Research Network for Pre-Modern Japanese Texts” https://www.nijl.ac.jp/pages/cijproject/index.html.
With best wishes and looking forward to seeing many of you,