阅读视图

국립중앙도서관 데이터, ‘누구나’ 쓰는 공공데이터로 탈바꿈

作者김병준

– 전문 지식 없어도 활용 가능한 국가서지 데이터 OpenAPI 서비스 개시
– 공공데이터포털 통해 민간·연구·스타트업 활용 확대

공공데이터포털 링크: https://www.data.go.kr/data/15154402/openapi.do

국립중앙도서관(관장 김희섭)은 그동안 전문가 중심으로 활용되던 국가서지 데이터를 일반 국민과 기업에서도 폭넓게 활용할 수 있도록 개방한다. 국립중앙도서관은‘25년 국가중점데이터 개방 지원사업*’으로 국가서지 Linked Open Data(LOD)** 기반 OpenAPI 서비스를 개발하였으며, 해당 데이터는 공공데이터포털(data.go.kr)을 통해 제공된다.

* 국가중점데이터 개방 지원사업: 수요와 가치가 높은 데이터를 선정하여 개방을 지원하는 행정안전부 공모사업

** Linked Open Data: 누구나 자유롭게 활용 가능한 데이터를 웹에서 연결하여 사용할 수 있도록 구조화된 형식으로 발행한 데이터

국가서지는 우리나라에서 생산·유통되는 출판물과 지식정보자원을 체계적으로 구축한 데이터로, 제공되는 국가서지 OpenAPI는 민간, 연구자, 공공기관 등 다양한 이용자층의 수요를 충족시킬 수 있도록 ▲서지정보(단행본, 연속간행물, 온라인자료 등의 메타데이터), ▲저자정보(개인·단체 저자의 정보), ▲주제정보(국립중앙도서관 주제명표목표(NLSH) 정보), ▲도서관 정보(전국 도서관 관련 정보), ▲인터링킹 정보(국내외 서지·저자·주제 데이터간 연결 정보) 등 5종으로 개방하여 데이터의 접근성과 재활용성을 강화했다.

국립중앙도서관은 이전에도 국가서지 Linked Open Data(LOD)를 제공해 왔으나 전문적인 질의언어(SPARQL) 사용이 필요해 관련 기술에 익숙하지 않은 일반인이 활용하는 데는 어려움이 있었다.

이번에 서비스를 시작한 국가서지 OpenAPI는 이러한 장벽을 낮췄다. 질의언어에 대한 전문 지식 없이도 손쉽게 국가서지 데이터를 활용할 수 있으며, 특히 응답데이터는 구조화된 데이터 형식인 XML과 JSON으로 제공되어 다양하게 활용할 수 있도록 하였다.

이번 개방된 데이터는 약 3,000만건으로 국립중앙도서관은 앞으로도 국가서지 데이터의 지속적인 현행화와 품질 개선을 추진하는 한편, AI 학습 및 지능형 서비스 활용을 고려한 데이터 개방을 단계적으로 확대해 나갈 계획이다.

이현주 디지털정보기획과장은 “이번 국가서지 OpenAPI 개방은 공공데이터의 실질적인 활용을 확대하는 중요한 기반을 마련한 것”이라며, “국민 누구나 국가지식정보를 자유롭게 활용할 수 있는 데이터 생태계를 지속적으로 조성해 나가겠다.”라고 밝혔다.

게시물 국립중앙도서관 데이터, ‘누구나’ 쓰는 공공데이터로 탈바꿈KADH / 한국디지털인문학협의회에 처음 등장했습니다.

  •  

[Dataset/Model] KPoEM

作者김병준

KPoEM: 한국 현대시 감정 분류 데이터셋과 모델

한국 현대시의 섬세한 감정을 AI가 이해할 수 있을까요? 한국학중앙연구원 디지털인문학연구소에서 개발한 KPoEM(Korean Poetry Emotion Mapping) 데이터셋이 이 질문에 답을 제시합니다.

KPoEM은 김소월, 윤동주, 이상, 임화, 한용운 등 한국의 대표 시인 5인의 시작품 483편을 44개의 감정 범주로 세밀하게 분석한 최초의 한국시 감정 데이터셋입니다.

연구 책임자: 김병준 교수 (한국학중앙연구원 한국학대학원 인문정보학)

연구 보조원: 지해인(박사과정), 임이로(석사과정), 구슬(석사과정)

라벨러(Annotator): 정송이(박사과정), 윤종훈(석사졸업)

논문 정보

Lim, I., Ji, H., & Kim, B. (2025). Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling (No. arXiv:2509.03932). arXiv. https://doi.org/10.48550/arXiv.2509.03932

왜 KPoEM이 필요한가?

기존의 한국어 감정 분석 데이터셋인 KOTE(Korean Online That-gul Emotions)온라인 댓글 5만 건을 기반으로 구축되었습니다. KOTE는 일상적인 온라인 텍스트 분석에는 유용하지만, 문학 텍스트 특히 시의 감정을 분석하는 데는 근본적인 한계가 있었습니다:

KOTE의 한계
  • 언어 스타일: 인터넷 댓글의 직접적이고 단순한 표현 vs 시의 은유적이고 다층적인 표현
  • 감정 표현: 댓글의 즉각적인 감정 반응 vs 시의 절제되고 함축적인 정서
  • 문맥 이해: 댓글의 단편적 맥락 vs 시의 전체적 의미 구조와 상징

KPoEM은 이러한 한계를 극복하고자 시 텍스트에 특화된 최초의 한국어 감정 데이터셋으로 개발되었습니다.

데이터셋 구성

KPoEM은 총 7,662개의 레이블링 데이터로 구성되어 있습니다:

  • 행 단위(line-level): 7,007개의 시행별 감정 레이블
  • 작품 단위(work-level): 615개의 시 전체 감정 레이블
  • 다중 레이블: 각 텍스트당 최대 10개의 감정 동시 표현 가능
  • 5명의 전문 주석자: 한국문학 및 디지털인문학 전공 연구자들의 독립적 레이블링
실제 데이터 구성 예시

다음은 윤동주의 “서시”에 대한 실제 KPoEM 데이터셋의 구조입니다:

CSV 형식의 원본 데이터
line_id,poem_id,text,sub_title,title,poet,annotator_01,annotator_02,annotator_03,annotator_04,annotator_05
1,1,죽는 날까지 하늘을 우러러,,서시,윤동주,비장함,비장함,"뿌듯함, 비장함","비장함, 뿌듯함, 감동/감탄","비장함, 서러움, 슬픔"
2,1,한 점 부끄럼이 없기를,,서시,윤동주,"부끄러움, 비장함","부끄러움, 비장함, 기대감, 불안/걱정, 서러움, 슬픔","깨달음, 비장함, 뿌듯함","비장함, 부끄러움, 기대감",비장함
3,1,잎새에 이는 바람에도,,서시,윤동주,"기대감, 신기함/관심","기대감, 불안/걱정, 비장함","슬픔, 서러움, 불안/걱정, 당황/난처","비장함, 슬픔","감동/감탄, 신기함/관심, 편안/쾌적, 기대감"
4,1,나는 괴로워했다.,,서시,윤동주,"절망, 슬픔, 패배/자기혐오","절망, 슬픔, 패배/자기혐오, 죄책감, 힘듦/지침, 비장함","당황/난처, 서러움, 죄책감, 패배/자기혐오","비장함, 슬픔, 패배/자기혐오, 절망, 힘듦/지침","슬픔, 서러움, 절망, 힘듦/지침, 패배/자기혐오"
주석자 간 감정 레이블링 분석

“나는 괴로워했다” (line_id: 4)에 대한 5명의 주석자 레이블링 분포:

감정선택한 주석자 수주석자
슬픔5명전원
패배/자기혐오5명전원
절망4명01, 02, 04, 05
힘듦/지침3명02, 04, 05
비장함2명02, 04
서러움2명03, 05
죄책감2명02, 03
당황/난처1명03

이처럼 주석자들 간의 합의도가 높은 감정(슬픔, 패배/자기혐오)과 개인차가 있는 감정(당황/난처)을 구분할 수 있습니다.

인터넷 댓글 학습 모델 vs 시 텍스트 학습 모델

일반 텍스트(인터넷 댓글)로 학습한 KOTE 모델은 시의 감정을 제대로 파악하지 못합니다. 다음은 정지용의 “향수”를 분석한 실제 사례입니다:

정지용 “향수” 분석 비교

분석 대상 시구:

흙에서 자란 내 마음
파아란 하늘 빛이 그립어
함부로 쏜 화살을 찾으려
풀섶 이슬에 함추름 휘적시든 곳
― 그 곳이 참하 꿈엔들 잊힐 리야.
KOTE 모델 (인터넷 댓글 학습)
주요 감정:
- 슬픔: 0.76
- 불쌍함/연민: 0.56
- 안타까움/실망: 0.51
- 없음(NO EMOTION): 0.42  ← 시에 감정이 없다고 판단
- 불안/걱정: 0.41
- 힘듦/지침: 0.39

문제점: 
- 감정 종류가 제한적 (6개)
- "감정 없음"이라는 부적절한 판단
- 향수와 그리움의 정서 포착 실패
- 댓글의 직접적 표현에만 익숙해 은유를 이해 못함
KPoEM 모델 (시 텍스트 학습)
주요 감정:
- 슬픔: 0.97
- 서러움: 0.94
- 안타까움/실망: 0.90
- 불안/걱정: 0.79
- 불쌍함/연민: 0.76
- 힘듦/지침: 0.72
- 아껴주는: 0.48
- 절망: 0.46
- 기대감: 0.36
- 신기함/관심: 0.32
- 깨달음: 0.32

장점:
- 다층적 감정 포착 (11개)
- 고향에 대한 그리움과 상실감 정확히 인식
- 한국적 정서 '서러움' 높은 점수
- 시적 은유와 상징을 통한 감정 이해
한강 “효에게. 2002. 겨울” 분석 비교

분석 대상 시구:

저 번쩍이는 거대한 흐름과
시간과 성장(成長),
집요하게 사라지고
새로 태어나는 것들 앞에
우리가 함께 있었다는 걸
KOTE 모델의 부적절한 감정 분류
  • 절망(0.35), 힘듦/지침(0.40) 같은 부정적 감정 과다
  • 댓글에서 학습한 표면적 부정어에만 반응
  • 시의 성찰적이고 초월적인 정서를 놓침
KPoEM 모델의 정확한 감정 분류
  • 비장함(0.91), 깨달음(0.91), 기대감(0.77)
  • 안심/신뢰(0.40), 감동/감탄(0.40) 등 긍정적 감정도 포착
  • 시간의 흐름 속 인간 관계의 의미를 정확히 해석
모델 성능
모델F1-microF1-macroAccuracy특징
KcELECTRA (KOTE only)0.430.340.77인터넷 댓글 학습, 시 이해 부족
KcELECTRA (KPoEM only)0.590.450.79시 전문 학습
KcELECTRA (KOTE → KPoEM)0.600.490.79최고 성능
44개 감정 카테고리

KPoEM은 한국어 정서 표현의 특수성을 반영한 44개 감정을 포함합니다:

  • 부정적 감정(25개): 경악, 공포/무서움, 슬픔, 서러움, 불안/걱정, 절망, 패배/자기혐오, 죄책감 등
  • 긍정적 감정(14개): 감동/감탄, 고마움, 기쁨, 행복, 편안/쾌적, 뿌듯함 등
  • 중립적 감정(4개): 깨달음, 놀람, 비장함, 우쭐댐/무시함
  • 기타(1개): 없음(NO EMOTION)

특히 ‘서러움’, ‘비장함’ 같은 한국 문화 특유의 감정 표현이 포함되어 있다는 점이 특징입니다.

데이터셋 및 모델 다운로드

KPoEM 데이터셋과 모델은 다음 플랫폼에서 이용 가능합니다:

모델 활용 예시
# 시 텍스트 감정 분석 예시
example = '''
나의 생은 미친듯이 사랑을 찾아 헤매었으나
단 한번도 스스로를 사랑하지 않았노라
'''

# threshold=0.3 설정 시, 확률값이 0.3 이상인 감정만 반환
result = kpoem_model.analyze(example, threshold=0.3)

분석 결과:

[('슬픔', 0.941),
 ('서러움', 0.924),
 ('안타까움/실망', 0.924),
 ('깨달음', 0.717),
 ('불안/걱정', 0.618),
 ('힘듦/지침', 0.601),
 ('불쌍함/연민', 0.590),
 ('패배/자기혐오', 0.552),
 ('비장함', 0.517),
 ('당황/난처', 0.481),
 ('부담/안_내킴', 0.455),
 ('절망', 0.448),
 ('불평/불만', 0.388),
 ('한심함', 0.348),
 ('아껴주는', 0.306),
 ('부끄러움', 0.300)]

위 결과는 자기 사랑의 부재에 대한 성찰을 담은 시구에서 슬픔, 서러움, 안타까움과 같은 주요 감정과 함께 깨달음이라는 성찰적 감정까지 포착하고 있습니다.

활용 사례 및 교육 콘텐츠

KPoEM 데이터셋과 모델은 다음과 같은 분야에서 활용될 수 있습니다:

  1. 문학 연구: 시인별, 시대별 감정 표현 패턴 분석
  2. 교육: AI 기반 시 창작 교육 및 감정 이해 학습
  3. 디지털 인문학: 대규모 문학 텍스트의 정량적 감정 분석
  4. 창작 지원: 특정 감정을 표현하는 시 구절 생성 및 추천
  5. 문화 연구: 한국 특유의 감정 표현 연구 (서러움, 비장함 등)

관련 교육 자료

KPoEM을 활용한 디지털 인문학 교육 콘텐츠가 제공되고 있습니다:

고급 자연어 처리 활용 – 디지털인문학 시리즈
이 교육 자료에서는 KPoEM 데이터셋을 활용한 실습 예제와 함께 문학 텍스트 감정 분석의 이론과 실제를 학습할 수 있습니다.

마치며

KPoEM은 한국 현대시의 감정을 체계적으로 분석할 수 있는 첫 번째 공개 데이터셋으로, AI와 문학의 융합 연구에 새로운 가능성을 열어줍니다. 인터넷 댓글로 학습한 기존 모델이 포착하지 못하는 시의 미묘한 감정과 한국적 정서를 정확히 인식할 수 있게 되었습니다.

연구자들과 개발자들이 이 데이터셋을 활용하여 더 많은 창의적인 프로젝트를 진행하기를 바랍니다. KPoEM을 통해 한국 현대시의 아름다움과 정서적 깊이를 디지털 시대에 새롭게 조명할 수 있기를 기대합니다.


이 연구는 2025년 한국학중앙연구원 연구교육연계과제의 지원을 받아 제작되었습니다. (AKSR2025-RE04 고급 자연어 처리 및 대규모 언어 모델 기반 디지털 한국학 연구 및 교육 방법론 개발)

게시물 [Dataset/Model] KPoEMKADH / 한국디지털인문학협의회에 처음 등장했습니다.

  •  

인물 지식그래프 편찬: 성엄법사연보

作者Baro

타이완 법고불교학원에서 성엄 법사(聖嚴法師, Shèngyán Fǎshī, 1930/1931년 ~ 2009년)의 연보를 대상으로 진행하고 있는 지식그래프 편찬 프로젝트에 대해서 간략한 소개가 있었습니다. 아직 프로젝트가 완전히 종료되지 않은듯 하나, 대략적인 진행을 살펴볼 수는 있었습니다.

기존에 있던 XML 데이터셋을 지식그래프로 전환하고자 함. 그래야 개별 요소간의 의미 관계가 온전해 지니!

기본적인 설계는 BioCRM을 따름.

본격적인 LOD 시스템 구현을 하고 싶어서 테스트해봤지만… 너무 느림. 그래서 Neo4J로 타협?!함.

바로:…음….jena가 아니라 다른 걸 사용했으면…?!

모든 과정에서 LLM의 도움을 받음. 물론 LLM만으로는 안됨. 하지만 매우~ 유용한 지원 도구임!

이상. 바로의 거친 간략 정리였습니다…상세한 해설은….귀찮…

개인적으로 많이 부럽긴 하지만, 자유롭게 활용 가능한 관련 데이터가 없어서..ㅠㅠ

  •  

[웹서비스]《유가사지론瑜伽師地論》 데이터베이스

作者Baro

https://sdp.dila.edu.tw

《瑜伽師地論》資料庫電子佛典製作與應用之研究
Yogācārabhūmi Database:A study on Creation and Application of Electronic Buddhist Texts

《유가사지론》(Yogācārabhūmi)은 인도 대승불교 유가행파(瑜伽行派)와 중국 법상종(法相宗)의 연원이며, 현장(玄奘)이 서역으로 경전을 구하러 간 동기이기도 합니다. 내용은 요가 수행자(선승)의 수행 단계와 경지에 관한 백과사전입니다.

본 데이터베이스는 TEI 태그셋(tag sets)을 사용하여 《유가사지론》의 이역본, 주석서, 산스크리트어 원전, 티베트어 번역본 등 전자 자료를 마크업(markup)하고, 그 구조적 특징(structural features)을 상호 참조(cross-reference) 표시하여 서로 대조할 수 있도록 하였습니다.

내용 설명 「내용 약어 및 약호」를 참고하십시오.

인터페이스 기능 「대조 열람 인터페이스」, 「전체 텍스트 검색」, 「해제(解題)」, 「다운로드」 및 「인용 복사」 등의 기능을 제공합니다.

교감 원칙 본 데이터베이스의 문헌 교감 원칙은 〈CBETA 문헌 교감 지침서〉를 참고하였습니다.

본 데이터베이스는 1999년 8월 1일부터 2002년 7월 31일까지 국과회(國科會, 국가과학위원회)의 지원을 받았습니다. 그 후, 2016년부터 임정남(林政男) 거사님의 특별 기부금으로 본 데이터베이스의 유지보수 및 확장을 지원받고 있습니다.

법고인문학술원(法鼓文理學院) DILA, 2024 본 데이터베이스는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 4.0 국제 라이선스(CC BY-SA 4.0)에 따라 이용이 허가되었습니다.

번역: Gemini 2.5 Pro. 2025.05.21.

바로: 예쁘지 않다. 그러나 그 데이터는 생성AI 시대에도, 아니 생성AI시대에 인간에 의해서만 온전히 만들어 질 수 있는 데이터다. 무엇보다 전체 데이터 다운로드가 된다! 우와와!!!

  •  

편향 측정 데이터셋: Shades of Bias in Text Dataset

作者Baro

대규모 언어 모델(Large Language Models, LLMs)은 많은 “인공지능”(AI) 애플리케이션의 기반이지만, 훈련 데이터에 존재하는 사회적 편견을 그대로 재현하는 것으로 알려져 있습니다. 그러나 이러한 문제를 측정하고 통제하며 완화하기 위한 자원은 제한적입니다. 스테레오타입 편견을 식별하고 완화하는 연구는 주로 영어에 집중되어 왔으며, 다국어 환경에서 LLM의 급속한 발전을 따라가지 못하고 있습니다. AI 시스템에서 스테레오타입 편견을 감지하는 능력을 더욱 발전시키기 위해, 우리는 새로운 다국어 데이터셋인 SHADES를 소개합니다. LLM이 학습할 수 있는 문화적으로 특정한 스테레오타입을 조사하기 위해 설계된 SHADES는 37개 지역에서 300개 이상의 스테레오타입을 포함하며, 16개 언어로 번역되고 다국어 스테레오타입 분석을 지원하는 다양한 특징들로 주석 처리되었습니다. 모든 언어의 모든 진술은 템플릿과 쌍을 이루어 새로운 평가 데이터의 무제한 생성을 위한 리소스로 사용됩니다. 우리는 모델과 언어에 따라 스테레오타입이 인식되고 반영되는 방식에서 상당한 차이를 드러내는 일련의 탐색적 평가를 통해 데이터셋의 유용성을 보여줍니다.

허깅페이스: https://huggingface.co/datasets/LanguageShades/BiasShades

깃허브: https://github.com/bigscience-workshop/ShadesofBias

논문: https://github.com/bigscience-workshop/ShadesofBias/blob/master/NAACL_paper.pdf

바로: 한국형 편향, 편견, 혐오 탐지는…. 그리고 편향, 편견을 억지로 통제할 필요가 있는가?! 쓰레기를 저 멀리 묻어두고 없는 척 하는 것보다 드러내서 온전히 “처리”할 필요가 있지 않은가? 라는 생각이 있긴 함.

  •  

[국립중앙도서관] 디지털인문학 데이터지원 대상자료 연계 과제 수요조사 안내

作者Baro

신청링크: https://nl.go.kr/rink/contents/R10202000000.do

바로: 여러분들…당장 쓰지 않더라도, 많이 귀찮으시더라도, (일단 무지성으로) 많은 신청을 해주시면, 담당자가 행복하고, 오픈 데이터의 미래도 열립니다!!

안녕하십니까, 국립중앙도서관 연구정보실입니다.

국립중앙도서관은 국가장서를 활용한 국내외 연구자의 학술연구활동을 지원하고, 연구자가 연구에 집중할 수 있도록 연구정보서비스를 운영하고 있습니다.

국립중앙도서관에서는 연구자 및 차세대연구자의 디지털인문학 융합연구 지원을 위해,

‘2025 고문헌(근대자료) 원문텍스트 데이터베이스 구축 자료’의 데이터를 활용한 연계 과제 수요조사를 

다음과 같이 실시하오니, 연구자께서는 협조하여 주시기를 부탁드립니다.

감사합니다.

가. 조사 개요

o 조사 대상: 디지털인문학 연구자

o 조사 기간: 2025. 5. 9.(금) ~ 7. 11.(금) 

o 조사 내용: 대상자료의 원문데이터를 활용한 디지털인문학 연구과제

o 대상 자료 및 지원 내용: 3종 65책

대상 자료제공 데이터 형식
가톨릭청년(1934-1936)24책txt, xml, json(UTF-8 인코딩)
문장(1939-1948)16책
조광(1937-1938)25책

나. 신청방법: 온라인 신청(’25. 5. 9. 부터 신청 가능)

                   (*연구정보서비스 누리집(https://www.nl.go.kr/rink/) > 프로그램 안내 및 신청 > 데이터 지원 > 과제수요조사 > 신청양식 작성 및 제출)

다. 요청사항:  사이트 내 게시, 회원 공지 등             

라. 관련문의: 02-590-0600(지식정보서비스과 연구정보실) 

붙임 1. (공문) 디지털인문학 데이터지원 대상자료 연계 과제 수요조사 1부.

        2. (별첨1) 디지털인문학 데이터지원 대상자료 연계 과제 수요조사 개요 1부.

        3. (별첨2) 원문텍스트 구축 목록(근대잡지) 1부.   끝.

  •  

[Database] Online Database of English Translations of Korean Literature

作者김병준

We are pleased to announce that an Online Database of English Translations of Korean Literature is now open to the public. Developed over three years (2022-2025), it is currently the most user-friendly, extensive, and accurate database of English translations of Korean literature. We believe that this database will serve as a vital tool for researchers, educators, students of Korean literature, and the broader public in locating available translations of Korean literary works. We also hope that it will serve as a foundational resource for future research that incorporates translation data into further insightful analyses of literary and cultural phenomena.

Database website: 

Project background:
This searchable database of English translations of Korean literature is a project that evolved from the field-defining edited volume The Routledge Companion to Korean Literature (edited by Heekyoung Cho, 729 pages, published in 2022). One of the key initiatives within the volume was the creation of a database of English translations of Korean literature, intended to be paired with scholarly resources for both teaching and research purposes. To briefly introduce the volume, it comprises 35 chapters written by leading scholars in the field and holds particular significance as the most comprehensive collection to date of English-language articles on Korean literature. The primary objective of this volume is to provide thorough, reliable, and enduring reference work not only for research but also for teaching in the fields of Korean literature, cultural studies, and related disciplines. In an effort to provide invaluable resources for researching, teaching, and studying Korean literature, the Companion includes as an appendix an extensive list of English translations of Korean literature, originally compiled by Hyokyoung Yi. Aware of the limitations of static, unsearchable printed data, we have collaborated with various individuals and units to develop an expanded, searchable online database based on the list presented in the Companion.

PIs:
Heekyoung Cho (Associate Professor, Department of Asian Languages & Literature, University of Washington; hchohcho@uw.edu)
Hyokyoung Yi (Director for Tateuchi East Asia Library, Korean Studies Librarian, University of Washington; hkyi@uw.edu)

Acknowledgement:
This online database was made possible through the generous support of the Tateuchi East Asia Library, the Simpson Center for the Humanities, and the Center for Korea Studies at the University of Washington.

  •  

Data Commons / 구글의 오픈지식 그래프 플랫폼

作者Baro

https://datacommons.org

Data Commons란 무엇인가?

Data Commons는 데이터를 서로 연결하고 공유하기 쉽게 만들고자 하는 오픈 소스 프로젝트입니다. 마치 거대한 지식 그래프 (Knowledge Graph)와 같다고 할 수 있죠. 다양한 분야의 데이터를 한 곳에 모아 연결하고, 이를 통해 새로운 통찰력을 얻고 문제를 해결하는 데 도움을 주고자 합니다.

Data Commons의 목표

  • 데이터 민주화 (Democratization of Data): 누구나 쉽게 데이터에 접근하고 사용할 수 있도록 하여 데이터 활용의 장벽을 낮추고자 합니다.
  • 데이터 연결 (Connecting Data): 서로 다른 데이터 소스를 연결하여 데이터 간의 연관성을 찾고, 이를 통해 새로운 가치를 창출합니다.
  • 데이터 기반 문제 해결 (Data-Driven Problem Solving): 데이터를 활용하여 사회 문제, 과학적 발견, 비즈니스 의사 결정 등 다양한 분야의 문제를 해결하는 데 기여합니다.

Data Commons의 주요 특징

  • 개방성 (Open Source): 누구나 Data Commons의 개발에 참여하고 기여할 수 있습니다.
  • 확장성 (Scalability): 다양한 분야와 대량의 데이터를 처리할 수 있도록 설계되었습니다.
  • 표준화 (Standardization): Schema.org와 같은 표준 스키마를 사용하여 데이터의 호환성을 높이고 재사용성을 촉진합니다.
  • 다양한 API 제공: REST API, Python API, SPARQL API 등 다양한 API를 제공하여 개발자들이 쉽게 Data Commons의 데이터에 접근하고 활용할 수 있도록 합니다.

Data Commons의 기술적인 내용

  1. 지식 그래프 (Knowledge Graph):
    • Data Commons는 데이터를 노드(node)와 엣지(edge)로 구성된 그래프 형태로 표현합니다.
    • 노드는 개체(entity)를 나타내고, 엣지는 개체 간의 관계(relationship)를 나타냅니다.
    • 예를 들어, “서울특별시”는 노드로, “인구”는 엣지로, “서울특별시 – 인구 -> 약 970만 명”과 같이 표현할 수 있습니다.
    • Knowledge Graph
  2. Schema.org:
    • Data Commons는 데이터의 의미를 명확하게 정의하기 위해 Schema.org와 같은 표준 스키마를 사용합니다.
    • Schema.org는 웹 상의 데이터를 구조화하기 위한 공통 어휘 (vocabulary)를 제공합니다.
    • 이를 통해 데이터의 호환성을 높이고, 기계가 데이터를 더 잘 이해할 수 있도록 합니다.
    • Schema.org
  3. 데이터 저장소 (Data Storage):
    • Data Commons는 다양한 데이터 소스를 수집하고 저장합니다.
    • 데이터는 주로 CSV, JSON, TSV와 같은 파일 형식으로 저장됩니다.
    • 또한, 그래프 데이터베이스를 사용하여 지식 그래프를 저장하고 쿼리합니다.
  4. API (Application Programming Interface):
    • Data Commons는 개발자들이 데이터에 쉽게 접근하고 활용할 수 있도록 다양한 API를 제공합니다.
    • REST API: 웹 기반의 API로, HTTP 요청을 통해 데이터에 접근하고 쿼리할 수 있습니다.
    • Python API: 파이썬 개발자를 위한 API로, 파이썬 코드를 통해 Data Commons의 데이터에 접근하고 분석할 수 있습니다.
    • SPARQL API: 그래프 데이터를 쿼리하기 위한 표준 질의 언어인 SPARQL을 지원합니다.
  5. 데이터 정제 및 통합 (Data Cleaning and Integration):
    • Data Commons는 다양한 소스에서 수집된 데이터를 정제하고 통합하는 과정을 거칩니다.
    • 데이터의 중복을 제거하고, 오류를 수정하고, 일관성을 유지하여 데이터의 품질을 향상시킵니다.

Data Commons의 활용 사례

  • 공공 데이터 (Public Data): 정부 기관에서 공개하는 인구 통계, 경제 지표, 환경 데이터 등을 통합하여 시민들이 쉽게 활용할 수 있도록 합니다.
  • 의료 데이터 (Healthcare Data): 질병 정보, 임상 시험 결과, 의학 논문 등을 연결하여 의학 연구를 지원하고 새로운 치료법 개발에 기여합니다.
  • 과학 데이터 (Scientific Data): 다양한 과학 분야의 데이터를 통합하여 연구자들이 데이터를 공유하고 협업할 수 있는 환경을 제공합니다.
  • 비즈니스 데이터 (Business Data): 기업의 재무 정보, 시장 데이터, 고객 데이터 등을 분석하여 비즈니스 의사 결정을 지원합니다.

결론

Data Commons는 데이터를 연결하고 공유하고 활용하는 방식을 혁신하는 프로젝트입니다. 방대한 데이터를 통합하고 분석하여 사회 문제 해결, 과학적 발견, 비즈니스 의사 결정 등 다양한 분야에 기여할 잠재력을 가지고 있습니다. 기술적으로는 지식 그래프, 표준 스키마, 다양한 API 등을 활용하여 데이터의 접근성과 활용성을 높이고 있습니다. Data Commons는 데이터를 통해 더 나은 세상을 만들고자 하는 목표를 향해 나아가고 있습니다.

  •  

Showcasing the Japan Biographical Database (JBDB)

作者김병준

Showcasing the Japan Biographical Database (JBDB)

Place: In person (Sophia University: Bldg. 2, 4th Floor, Room 414) and on Zoom (for link see below)

Date: 9 November 2024

Time: 10:00 until 17:30 (Tokyo time) 

Zoom Link:  Topic: Showcasing the Japan Biographical Database (JBDB) Time: 9 Nov. 2024 (opens 09:30 AM) Tokyo https://sophia-ac-jp.zoom.us/j/91601237353

Meeting ID: 916 0123 7353  Passcode: 070578

The Japan Biographical Database (JBDB) is a bilingual, open access database aimed at accumulating information on historical figures and their biographical data related to Japan. Using a JavaScript web application, we have set up a PostgreSQL database based on the construction of the China Biographical Database (CBDB) to accumulate data and edit its functions. JBDB provides the base for network analysis, spatial analysis, and prosopography, as well as biographies. As of October 2024, about 15,000 historical figures have been added with a concentration in the Tokugawa and Meiji eras.  

The objective is to keep expanding the data by inviting related projects to join and share their materials on this platform. Currently, thirteen projects work independently with JBDB and the symposium will showcase some of them not last to illustrate how adjustable and diverse the components are. We also invited some other projects from which we have been learning or hope to do so in the future. 

Program:

1. Yoshitaka Yamamoto (NIJL): Visualizing the Jūjun kagetsu Album (1827)  

2. Jingyi Li (Occidental College): Networks of Profit in Nineteenth-Century Literati Network

3. Takahashi Yasuhiro (Tama University):  Rai Shunsui and Confucian Texts

4. Maki Nakai (Meiji University): The Origins and Development of Antiquarianism

5. Nadia Kanagawa: Challenges and Opportunities in Exploring theNetworks of Izumi Province in the Diary of Kujō Masamoto, 150­1–1502

6. Iris Haukamp (TUFS): Early Films and Creative Chaos: Establishing Links and Lineages in Japanese Cinema

7. Nakamura Satoru (Historiographical Institute The University of Tokyo): Development of a Retrieval System Using NDLOCR for Print Images of the Historiographical Institute The University of Tokyo 

8. James Morris (Waseda University): Pre-Modern Christianity in Japan: The Limitations and Potentialities of Digital Methods

9. Marie Yasunaga (College of Japanese Language and Culture, Tsukuba University/Independent Scholar, the Netherlands): Gender in Early Modern Streets of Edo, Illuminated through Visual Annotation using IIIF

10. David Slater (Sophia University): Refugee Voices Japan

11. Anatole Bernet (Sciences Po Center for History, Paris): Academic Kinship and Endogamy among Imperial Japan’s Health Specialists

12. Leo Born (Qwyga): On the Road: Biographical Itineraries in the JBDB

We will give an update once the full program with details is up on the homepage.

*JBDB is one of the collaborative projects of  NIJL’s “Project to Build an International Collaborative Research Network for Pre-Modern Japanese Texts” https://www.nijl.ac.jp/pages/cijproject/index.html.

With best wishes and looking forward to seeing many of you,

Bettina Gramlich-Oka

  •