普通视图

Received before yesterday

『디지털인문학』 제2권 제2호 발간 안내 (KJDH Vol.2, No.2)

作者김병준
2025年12月9日 11:35

한국디지털인문학협의회에서 발행하는 학술지 『디지털인문학(Korean Journal of Digital Humanities)』 제2권 제2호가 발간되었습니다.

이번 호에는 기생에 대한 학술 담론의 계산적 분석, 백남준 예술작품의 시맨틱 모델링, 그리고 한국 디지털인문학 40년의 역사를 다룬 세 편의 논문이 수록되었습니다.

수록 논문

1. Computational Thematic Analysis of Academic Representations of the Gisaeng in the Korea Citation Index (2000–2024)
César Augusto Ribas Ramírez, Aurelia Martín Casares, Eun Kyung Kang (pp. 1-16)
논문 보기: https://accesson.kr/kjdh/v.2/2/1/57832

한국학술지인용색인(KCI)에 등재된 613편의 논문 초록을 대상으로 Ko-SRoBERTa와 BERTopic을 활용하여 기생(妓生)에 대한 학술 담론을 분석한 연구입니다. 문학, 공연예술, 식민주의와 근대성, 대중적 기생상 등 네 가지 거시 주제를 도출하며, 딥러닝 모델이 역사·문화·젠더 분석에서 갖는 해석적 잠재력을 보여줍니다.

2. Data-driven Semantic Modeling of Nam June Paik’s Artwork, A Tribute to John Cage: A LIDO-CIDOC CRM Case Study
Hyun-sook Kim (pp. 17-30)
논문 보기: https://accesson.kr/kjdh/v.2/2/17/57833

백남준의 작품 A Tribute to John Cage를 대상으로 LIDO Schema와 CIDOC CRM 표준을 활용한 시맨틱 모델링 연구입니다. 데이터 통합, 시맨틱 매핑, 변환, SPARQL 질의까지의 전 과정을 수행하며, 현대미술 분야에서 시맨틱 데이터의 확장성과 구조화 가능성을 탐색합니다.

3. Korean Digital Humanities, From ‘Data Digitization’ to ‘The Grand Transformation of Knowledge’: An account of 40 years of pioneering history as told by Professor Hyeon Kim
Hyeon Kim (pp. 31-57)
논문 보기: https://accesson.kr/kjdh/v.2/2/31/57834

한국 디지털인문학의 개척자 김현 교수가 직접 전하는 40년의 역사입니다. ‘데이터 디지털화’에서 ‘지식의 대전환’에 이르기까지 한국 디지털인문학이 걸어온 발자취를 생생하게 담고 있습니다.

『디지털인문학』은 오픈 액세스 학술지로, 모든 논문을 무료로 열람하실 수 있습니다.
전체 목차 보기: https://accesson.kr/kjdh/v.2/2/2025


English Version

Announcing Korean Journal of Digital Humanities, Vol. 2, No. 2

We are pleased to announce the publication of Korean Journal of Digital Humanities (KJDH) Volume 2, Issue 2, published by the Korean Association for Digital Humanities.

This issue features three articles covering computational analysis of academic discourse on gisaeng, semantic modeling of Nam June Paik’s artwork, and a retrospective on 40 years of Korean digital humanities.

Articles in This Issue

1. Computational Thematic Analysis of Academic Representations of the Gisaeng in the Korea Citation Index (2000–2024)
César Augusto Ribas Ramírez, Aurelia Martín Casares, Eun Kyung Kang (pp. 1-16)
Read the article: https://accesson.kr/kjdh/v.2/2/1/57832

This study analyzes academic discourse on gisaeng using a corpus of 613 abstracts from the Korea Citation Index (2000–2024). Employing Ko-SRoBERTa and BERTopic, the research identifies four macro-themes—Literature, Performing Arts, Colonialism and Modernity, and Popular Gisaeng—demonstrating the interpretive potential of deep learning models for historiographical, cultural, and gender analysis.

2. Data-driven Semantic Modeling of Nam June Paik’s Artwork, A Tribute to John Cage: A LIDO-CIDOC CRM Case Study
Hyun-sook Kim (pp. 17-30)
Read the article: https://accesson.kr/kjdh/v.2/2/17/57833

This study presents a semantic modeling approach for Nam June Paik’s A Tribute to John Cage, utilizing LIDO Schema and CIDOC CRM standards. The research demonstrates the end-to-end process of data integration, semantic mapping, transformation, and SPARQL querying, exploring possibilities for semantic data structuring in contemporary art.

3. Korean Digital Humanities, From ‘Data Digitization’ to ‘The Grand Transformation of Knowledge’: An account of 40 years of pioneering history as told by Professor Hyeon Kim
Hyeon Kim (pp. 31-57)
Read the article: https://accesson.kr/kjdh/v.2/2/31/57834

A firsthand account by Professor Hyeon Kim, a pioneer of Korean digital humanities, chronicling 40 years of development in the field—from early data digitization efforts to the current era of knowledge transformation.

KJDH is an open access journal, and all articles are freely available.
View full issue: https://accesson.kr/kjdh/v.2/2/2025

게시물 『디지털인문학』 제2권 제2호 발간 안내 (KJDH Vol.2, No.2)KADH / 한국디지털인문학협의회에 처음 등장했습니다.

Brain-IT:사람의 뇌파로 이미지 복원

作者Baro
2025年11月11日 22:22

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

https://arxiv.org/abs/2510.25976

fMRI 뇌 활동 기록을 통해 사람이 본 이미지를 재구성하는 기술은 인간의 뇌를 비침습적으로 들여다볼 수 있는 창을 제공합니다. 최근 확산 모델(diffusion models)을 통해 진전이 있었음에도 불구하고, 현재의 방법들은 실제 본 이미지에 대한 충실도가 부족한 경우가 많습니다.

우리는 이러한 문제를 해결하기 위해 뇌에서 영감을 받은 접근 방식인 “Brain-IT”를 제시합니다. 이 방법은 기능적으로 유사한 뇌 복셀(voxel) 클러스터 간의 효과적인 상호작용을 가능하게 하는 ‘뇌 상호작용 트랜스포머(Brain Interaction Transformer, BIT)’를 사용합니다. 이러한 기능적 클러스터는 모든 피험자에게 공유되며, 뇌 내부 및 뇌 간의 정보를 통합하기 위한 구성 요소 역할을 합니다. 모든 모델 구성 요소는 모든 클러스터 및 피험자에게 공유되므로 제한된 양의 데이터로도 효율적인 학습이 가능합니다.

이미지 재구성을 유도하기 위해, BIT는 두 가지 상호 보완적인 국소적 패치 수준 이미지 특징을 예측합니다. 즉, (i) 확산 모델이 이미지의 정확한 의미론적 콘텐츠를 향하도록 이끄는 ‘고수준 의미론적 특징’과 (ii) 이미지의 정확한 대략적 레이아웃으로 확산 과정을 초기화하는 데 도움이 되는 ‘저수준 구조적 특징’입니다.

BIT의 설계는 뇌 복셀 클러스터에서 국소적 이미지 특징으로 정보가 직접 흐를 수 있게 합니다. 이러한 원리를 통해, 우리 방법은 fMRI로부터 본 이미지를 충실하게 재구성하며, 시각적으로나 표준 객관 지표로나 현재의 최고 수준(SotA) 접근 방식들을 능가합니다.

더욱이, 새로운 피험자로부터 단 1시간 분량의 fMRI 데이터만으로도, 40시간 전체 기록으로 학습된 현재의 방법들과 비슷한 수준의 결과를 달성합니다.

바로: 이미지 출력이 점차 가시화 된다. 텍스트 그리고 사유의 출력은? 그리고 입력은?

게시물 Brain-IT:사람의 뇌파로 이미지 복원KADH / 한국디지털인문학협의회에 처음 등장했습니다.

agi의 정의는?

作者Baro
2025年11月2日 21:29

https://arxiv.org/abs/2510.18212

초록: 범용 인공지능(AGI)에 대한 구체적인 정의의 부재는 오늘날의 특화된 AI와 인간 수준의 인지 사이의 격차를 모호하게 만듭니다. 본 논문은 이 문제를 해결하기 위해 정량화 가능한 프레임워크를 도입하며, AGI를 고등 교육을 받은 성인의 인지적 다재다능성과 숙련도에 부합하는 것으로 정의합니다. 이를 조작화하기 위해, 본 연구는 인간 인지에 대해 경험적으로 가장 많이 검증된 모델인 카텔-혼-캐롤(Cattell-Horn-Carroll) 이론에 방법론적 기반을 둡니다. 이 프레임워크는 일반 지능을 추론, 기억, 지각을 포함한 10개의 핵심 인지 영역으로 분류하고, 확립된 인간 심리측정 도구(psychometric batteries)를 AI 시스템 평가에 맞게 조정하여 적용합니다. 이 프레임워크를 적용한 결과, 최신 AI 모델들은 매우 “들쭉날쭉한(jagged)” 인지 프로파일을 보였습니다. 현 AI 시스템들은 지식 집약적 영역에서는 능숙하지만, 기초적인 인지 메커니즘(foundational cognitive machinery), 특히 장기 기억 저장 능력에 있어 심각한 결함을 보입니다. 그 결과로 산출된 AGI 점수(예: GPT-4 27%, GPT-5 57%)는 빠른 발전과 AGI에 도달하기까지 여전히 남아있는 상당한 격차를 구체적으로 정량화하여 보여줍니다.

주제: 인공지능(cs.AI); 기계 학습(cs.LG)

바로: AGI는 ‘인공 일반 지능(Artificial General Intelligence)’의 줄임말로, 인간과 같이 거의 모든 지적 작업을 수행할 수 있는 인공지능을 의미한다. 그리고 이 논문은 그런 범용 인공지능에 대한 평가 모델에 대해서 어떻게 평가할지 고민한다. 이 논문에서는 “고등 교육을 받은 성인의 인지적 다재다능성과 숙련도”를 기준으로 놓았는데…인지 영역으로 한정되어있다. 그런데 이미 기본적인 지적능력을 가지고 있는 상황에서 자율적으로 문제를 세팅하고 처리하는 영역에 대한 평가는…어렵지…또한 인간의 지능을 훨씬 뛰어넘는 AI인 ASI(Artificial Super Intelligence, 초인공지능)은 어떻게 평가해야 할까?

게시물 agi의 정의는?KADH / 한국디지털인문학협의회에 처음 등장했습니다.

[논문] Network analysis reveals news press landscape and asymmetric user polarization

作者Baro
2025年8月29日 19:53

※ 학술지: Physica A: Statistical Mechanics and its Applications

※ 논문명: Network analysis reveals news press landscape and asymmetric user polarization

※ 논문링크: https://doi.org/10.1016/j.physa.2025.130842

– 관련뉴스: https://www.skku.edu/skku/campus/skk_comm/news.do?mode=view&articleNo=129197

Abstract

Unlike traditional media, online news platforms allow users to consume content that suits their tastes and to facilitate interactions with other people. However, as more personalized consumption of information and interaction with like-minded users increase, ideological bias can inadvertently increase and contribute to the formation of echo chambers, reinforcing the polarization of opinions. Although the structural characteristics of polarization among different ideological groups in online spaces have been extensively studied, research into how these groups emotionally interact with each other has not been as thoroughly explored. From this perspective, we investigate both structural and affective polarization between news media user groups on Naver News, South Korea’s largest online news portal, during the period of 2022 Korean presidential election. By utilizing the dataset comprising 333,014 articles and over 36 million user comments, we uncover two distinct groups of users characterized by opposing political leanings and reveal significant bias and polarization among them. Additionally, we reveal the existence of echo chambers within co-commenting networks and investigate the asymmetric affective interaction patterns between the two polarized groups. Classification task of news media articles based on the distinct comment response patterns support the notion that different political groups may employ distinct communication strategies. Our approach based on network analysis on large-scale comment dataset offers novel insights into characteristics of user polarization in the online news platforms and the nuanced interaction nature between user groups.

네트워크 분석으로 드러난 언론 지형과 사용자 양극화의 비대칭성

기존 미디어와 달리, 온라인 뉴스 플랫폼은 사용자가 자신의 취향에 맞는 콘텐츠를 소비하고 다른 사람들과의 상호작용을 촉진할 수 있게 해준다. 그러나 정보의 개인화된 소비와 생각이 비슷한 사용자들과의 상호작용이 증가함에 따라, 이념적 편향이 의도치 않게 증가하고 반향실(echo chamber) 형성으로 이어져 의견 양극화를 강화할 수 있다. 온라인 공간에서 서로 다른 이념 집단 간 양극화의 구조적 특징에 대해서는 광범위하게 연구되었지만, 이들 집단이 서로 어떻게 감정적으로 상호작용하는지에 대한 연구는 심도 있게 이루어지지 않았다.

이러한 관점에서, 우리는 2022년 한국 대통령 선거 기간 동안 대한민국 최대 온라인 뉴스 포털인 네이버 뉴스에서 뉴스 미디어 사용자 그룹 간의 구조적 및 정서적 양극화를 모두 조사한다. 333,014개의 기사와 3,600만 개 이상의 사용자 댓글로 구성된 데이터셋을 활용하여, 우리는 상반된 정치적 성향을 특징으로 하는 두 개의 뚜렷한 사용자 집단을 발견하고 이들 사이의 상당한 편향과 양극화를 밝혀낸다.

또한, 공동 댓글 네트워크 내에 반향실이 존재함을 밝히고, 양극화된 두 집단 사이의 비대칭적인 정서적 상호작용 패턴을 조사한다. 뚜렷하게 구분되는 댓글 반응 패턴에 기반한 뉴스 미디어 기사 분류 과제는, 서로 다른 정치 집단이 각기 다른 소통 전략을 사용할 수 있다는 개념을 뒷받침한다. 대규모 댓글 데이터셋에 대한 네트워크 분석에 기반한 우리의 접근 방식은 온라인 뉴스 플랫폼에서의 사용자 양극화 특성과 사용자 그룹 간의 미묘한 상호작용 본질에 대한 새로운 통찰을 제공한다.

번역: Gemini 2.5 Pro. 2025.08.29.

[논문] Epidemiology models explain rumour spreading during France’s Great Fear of 1789

作者Baro
2025年8月29日 19:50

논문:

https://www.nature.com/articles/s41586-025-09392-2

데이터&코드:

https://github.com/ComplexityBiosystems/GreatFear/
https://dataverse.unimi.it/dataset.xhtml?persistentId=doi:10.13130/RD_UNIMI/X5LI3X

팟캐스트(유튜브) 컨텐츠:

https://www.nature.com/articles/d41586-025-02749-7

피어리뷰:

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09392-2/MediaObjects/41586_2025_9392_MOESM3_ESM.pdf

Epidemiology models explain rumour spreading during France’s Great Fear of 1789

Nature (2025)Cite this article

Abstract

The Great Fear of 1789, a wave of panic and unrest in rural France fuelled by the spreading of rumours, was an important moment at the onset of the French Revolution, marking the collapse of feudalism and the rise of the new regime1. The Great Fear provides a vivid example of the role the spreading of rumours has in driving political changes that might be relevant today2,3. Here, we collect existing historical records related to the Great Fear and use epidemiology tools and models4 to reconstruct the network of its transmission from town to town. In this way, we quantify the spatiotemporal spread of the rumours and compute key epidemiological parameters, such as the basic reproduction number. Exploiting information on the structure of the road network in eighteenth century France5, we estimate the most probable diffusion paths of the Great Fear and quantify the distribution of spreading velocities. By endowing the nodes in our reconstructed network with indicators related to the institutional, demographic and socio-economic conditions of the time6, including literacy, population size, political participation, wheat prices7,8, income and ownership laws9, and the unequal distribution of land ownership, we compute factors associated with spread of the Great Fear. Our analysis sheds light on unresolved historiographic issues on the significance of the Great Fear for the French Revolution, providing a quantitative answer to the unresolved debate between the role of emotions and rationality in explaining its diffusion.

역학 모델로 프랑스 대공포 시기(1789)의 루머 확산을 설명하다

스테파노 자페리, 콘스탄트 발레-베르트랑, 세실 바스티동, 카테리나 A. M. 라 포르타 & 앙투안 파랑 Nature (2025)

초록

1789년의 대공포는 루머 확산으로 촉발된 프랑스 농촌의 공황과 불안의 물결로, 프랑스 혁명 초기의 중요한 사건이었으며 봉건제도의 붕괴와 새로운 체제의 부상을 알리는 계기가 되었습니다¹. 대공포는 루머 확산이 정치적 변화를 이끄는 역할에 대한 생생한 사례를 제공하며, 이는 오늘날에도 유의미할 수 있습니다²,³.

본 연구에서는 대공포와 관련된 기존의 역사 기록을 수집하고, 역학 도구와 모델⁴을 사용하여 도시 간 전파 네트워크를 재구성합니다. 이를 통해 우리는 루머의 시공간적 확산을 정량화하고, 기초감염재생산수와 같은 핵심적인 역학적 매개변수를 계산합니다. 18세기 프랑스의 도로망 구조에 대한 정보⁵를 활용하여, 대공포의 가장 가능성 있는 확산 경로를 추정하고 확산 속도의 분포를 정량화합니다.

또한, 재구성된 네트워크의 각 노드(도시)에 당시의 제도적, 인구통계학적, 사회경제적 조건⁶(문해율, 인구 규모, 정치 참여, 밀 가격⁷,⁸, 소득 및 소유권법⁹, 토지 소유의 불평등한 분배 등)과 관련된 지표를 부여함으로써, 대공포 확산과 관련된 요인들을 계산합니다.

우리의 분석은 프랑스 혁명에서 대공포가 갖는 중요성에 대한 미해결된 역사학적 쟁점들을 조명하며, 그 확산을 설명하는 데 있어 감정과 합리성의 역할에 대한 오랜 논쟁에 정량적인 해답을 제공합니다.

번역: Gemini 2.5 Pro. 2025.08.29.

디지털인문학(KJDH) 2권 1호

作者김병준
2025年6月9日 14:39

학술지 <디지털인문학>(Korean Journal of Digital Humanities) 제2권 1호가 발간되었습니다. AI 시대의 도서관 역할부터 셰익스피어 텍스트 분석까지, 디지털 인문학의 다양한 연구 성과를 담았습니다.

링크: https://accesson.kr/kjdh/v.2/1/2025

📚 수록 논문 소개

1. AI 시대, 국가지식문화자원 데이터 허브 국립중앙도서관

National Knowledge and Cultural Data Hub: The Role of the National Library of Korea in the Age of AI

저자: 김수정 (국립중앙도서관)
페이지: 1-12
DOI: 10.23287/KJDH.2025.2.1.1

인공지능 시대를 맞아 국립중앙도서관의 새로운 역할을 조명한 연구입니다. AI 시대 지식정보 패러다임 전환을 개관하고, 주요 해외 국가도서관의 데이터 허브 사례를 분석했습니다. 국립중앙도서관 데이터의 특성(신뢰성, 포괄성, 다양성, 개방성, 확장성, AI 활용성)을 제시하고, 데이터 허브 기능 강화를 위한 네 가지 전략 방향을 제안합니다. 국가 차원의 AI 학습 데이터 생태계 구축을 위한 기초 자료로서의 가치가 높습니다.

주요 키워드: 국립중앙도서관, 국가지식문화자원, AI 학습데이터, 데이터 허브


2. 언어학, 전산언어학, 그리고 디지털 인문학

Linguistics, Computational Linguistics, and Digital Humanities

저자: 정성훈 (경북대학교)
페이지: 13-31
DOI: 10.23287/KJDH.2025.2.1.2

디지털 인문학의 역사적 발전 과정을 체계적으로 추적한 논문입니다. 로베르토 부사 신부의 중세 라틴어 색인 작업에서 시작된 ‘인문전산학’부터 현재의 생성형 AI까지, 디지털 인문학의 진화 과정을 상세히 다룹니다. 특히 전산언어학이 텍스트 분석, 의미 분석, 정보 추출을 통해 인문학 연구자들이 방대한 언어 데이터에서 의미 있는 통찰을 도출하는 데 핵심적 역할을 한다는 점을 강조합니다. 향후 융합적 접근의 심화와 디지털 데이터 활용의 윤리적 문제까지 고려한 포괄적 연구입니다.

주요 키워드: 언어학, 전산언어학, 인문학, 디지털 인문학, 인공지능


3. 텍스트 구조적 요소에 따른 감성 분석 성능의 차이: 셰익스피어 『햄릿』을 통한 어휘 사전과 RNN 기반 비교

Structural Factors in Sentiment Analysis: Lexicon vs. RNN on Shakespeare’s Hamlet

저자: 김민 (연세대학교)
페이지: 32-48
DOI: 10.23287/KJDH.2025.2.1.3

셰익스피어의 『햄릿』 한글 번역본을 대상으로 감성사전 기반 방법과 RNN 기반 방법의 감성 분석 성능을 실증적으로 비교한 연구입니다. 텍스트 복잡성에 따른 각 방법론의 적합성과 오류 정도를 분석하며, 어휘 기반과 구문·문법구조를 아우르는 총체적 분석 방식을 비교 대조합니다. 자연어 패턴의 이해와 처리 방식을 역추론하고, 전산적 분류 결과와 직관적 관찰 간의 차이를 분석하여 NLP 방법론 개선에 기여합니다.

주요 키워드: 감성분석, RNN, 사전기반, 텍스트 패턴, 셰익스피어 코퍼스


4. 작가 박경리 관련 일간지 기사 데이터 구축 사례

A Case Study on Building a Newspaper Article Dataset Related to Author Pak Kyongni

저자: 신정은 (연세대학교)
페이지: 49-68
DOI: 10.23287/KJDH.2025.2.1.4

작가 박경리와 소설 『토지』의 대중적 수용 양상을 연구하기 위해 69년간(1955-2024) 24종 신문의 관련 기사를 AI 챗봇의 도움으로 체계적으로 데이터화한 실용적 사례 연구입니다. 인문학 연구자들이 디지털 도구와의 거리감을 줄이고, AI를 활용한 방법론을 통해 전통적인 문학 연구와 디지털 인문학 간의 간극을 좁힐 수 있음을 보여줍니다. 특히 한국문학 연구에서 상대적으로 소외되어 온 ‘대중 수용사’ 분야에 디지털 접근을 적용하여 정성적·정량적 접근을 연결하는 새로운 방법론을 제시합니다.

주요 키워드: 박경리, 신문 기사, 데이터 구축, 대중, 수용


5. 문학 텍스트에서 플랫폼까지: 호이트 롱 교수와 함께 탐색하는 디지털 인문학의 지평

From Literary Texts to Platforms: Exploring the Horizons of Digital Humanities with Professor Hoyt Long

저자: 호이트 롱 (시카고대학교)
페이지: 69-82
DOI: 10.23287/KJDH.2025.2.1.5

시카고 대학교 호이트 롱(Hoyt Long) 교수와의 심층 인터뷰를 통해 디지털 인문학의 현재와 미래를 조망합니다. 문학 텍스트 분석에서 플랫폼 연구까지, 디지털 인문학 연구의 확장된 지평을 탐구하며 한국 디지털 인문학 연구자들에게 귀중한 통찰과 영감을 제공합니다. 한국어 번역본도 함께 수록되어 접근성을 높였습니다.

RAG 2.0? : GLM(Grounded Language Model)

作者Baro
2025年3月8日 21:04

AI타임즈: “기존 RAG는 짜깁기”…’RAG 2.0′ 적용한 최고 사실 확인 모델 등장

Contextual AI

인공지능(AI) 스타트업 컨텍스추얼 AI(contextual AI)가 검색 증강 생성(RAG)을 재정리한 ‘RAG 2.0’ 기술을 기반으로 환각을 최소화하는 새로운 대형언어모델(LLM)을 출시했다. RAG 기술의 창시자가 직접 제작한 이 모델은 벤치마크에서 구글과 앤트로픽, 오픈AI 등의 사실 정확도를 능가했다.

컨텍스추얼 AI는 4일(현지시간) 업계에서 가장 높은 사실 정확도를 제공하는 ‘근거(groundedness) 기반’ 언어모델을 공개했다. 이름도 ‘GLM(Grounded Language Model)’이라고 붙였다. 

GLM은 명시적으로 제공된 정보로만 AI 응답을 제공하는 근거 개념을 핵심 원칙으로 삼고 있다. 이를 위해, 컨텍스추얼은 기존의 RAG 시스템의 한계를 뛰어넘는 새로운 접근법인 RAG 2.0을 도입했다고 밝혔다.

RAG 2.0은 시스템의 모든 요소를 하나로 통합해 최적화한다고 밝혔다. 정보 검색과 처리가 하나의 통합 시스템 내에서 이뤄지도록 사전 학습과 미세조정을 진행한다. 이를 통해 언어 모델과 검색 모델(retriever)을 동시에 학습, 성능을 극대화한다는 설명이다.

또 RAG 2.0은 스마트한 검색을 가능하게 하는 ‘혼합 검색기(mixture-of-retrievers)’ 기능을 사용한다. 이 기술은 질문을 받고 먼저 가장 적절한 검색 방법을 계획한 후, 그 전략에 따라 정보를 찾아낸다. 이는 최신 AI 모델의 사고방식과 비슷하다.

여기에 세계 최고 수준의 ‘재 순위 모델(re-ranker)’과 함께 작동, 검색된 정보 중 가장 중요한 내용을 선별하고 우선순위를 매겨 GLM에 전달하기 전에 정확도를 높인다고 덧붙였다.

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(2020)

AI로 설형 문자 식별하기

作者Baro
2025年3月5日 15:36

ProtoSnap: Prototype Alignment for Cuneiform Signs

참조: AI models makes precise copies of cuneiform characters

이 논문은 고대 근동 지역에서 3천 년 이상 사용된 쐐기 문자 기호의 복잡한 내부 구조를 자동으로 분석하는 새로운 방법을 제시합니다. 기존 방법들은 쐐기 문자 기호를 단순한 범주로 취급했지만, 이 연구는 프로토타입 폰트 이미지와 강력한 생성 모델을 활용하여 쐐기 문자 기호의 다양한 내부 구조를 복원하는 비지도 학습 접근 방식인 ProtoSnap을 제안합니다.

핵심 내용:

  • 문제 정의: 쐐기 문자 기호의 복잡한 내부 구조를 자동으로 분석하고, 시간과 지역에 따른 변화를 추적하는 것.
  • ProtoSnap 방법:
    • 사전 학습된 안정적인 확산 모델에서 추출한 확산 특징을 사용하여 프로토타입 이미지와 대상 이미지 사이의 유사성 점수를 계산합니다.
    • 4D 유사성 볼륨을 사용하여 최적의 친구 대응(Best-Buddies correspondences)을 찾고, 이를 통해 프로토타입을 대상 이미지에 전역적으로 정렬합니다.
    • 개별 획에 대한 국소적인 세분화를 통해 각 획이 정확한 위치에 “스냅”되도록 최적화합니다.
  • 평가:
    • 전문가가 주석을 단 272개의 쐐기 문자 기호로 구성된 새로운 테스트 세트를 사용하여 성능을 평가합니다.
    • 기존의 대응 매칭 방법(SIFT, DINOv2, DIFT)보다 우수한 성능을 보입니다.
    • 지역적인 세분화 단계가 전역적인 변환만 학습하는것보다 성능향상을 보입니다.
  • 응용:
    • ProtoSnap을 사용하여 생성된 정렬된 뼈대 데이터셋으로 ControlNet을 미세 조정하여 새로운 쐐기 문자 기호를 생성합니다.
    • 생성된 합성 데이터를 실제 데이터셋에 추가하여 쐐기 문자 기호 분류 성능을 향상시킵니다.
    • 구조적인 제어를 통해 정확한 시대와 변형에 맞는 쐐기 문자를 생성할 수 있습니다.
  • 기여:
    • 쐐기 문자 기호의 내부 구조를 분석하는 새로운 비지도 학습 방법 제시.
    • 전문가 주석이 포함된 새로운 테스트 세트 제공.
    • 쐐기 문자 기호 분류 성능 향상을 위한 합성 데이터 생성 방법 제시.

이 연구는 디지털 인문학 분야에서 쐐기 문자 연구에 기여하며, 쐐기 문자 인식 및 분석의 다양한 응용 분야에 활용될 수 있을 것으로 기대됩니다.

사용도구: Gemini Advanced 2.0 Flash. 2025.03.05.

[논문] OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

作者Baro
2025年1月30日 14:23

https://arxiv.org/abs/2501.09751

https://github.com/zjunlp/OmniThink

Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model’s predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.

대규모 언어 모델을 사용한 기계 작문은 종종 검색 증강 생성에 의존합니다. 그러나 이러한 접근 방식은 모델의 사전 정의된 범위 내에 갇혀 풍부한 정보를 가진 콘텐츠 생성을 제한합니다. 특히, 일반 검색 정보는 깊이와 유용성이 부족하고 중복성이 문제가 되어 생성된 글의 품질에 부정적인 영향을 미치고 얕고 반복적이며 독창적이지 않은 결과를 초래합니다. 이러한 문제를 해결하기 위해 우리는 인간과 같은 반복적 확장 및 반성 과정을 모방하는 기계 작문 프레임워크인 OmniThink를 제안합니다. OmniThink의 핵심 아이디어는 학습자가 주제에 대한 지식을 점진적으로 심화하는 인지적 행동을 시뮬레이션하는 것입니다. 실험 결과는 OmniThink가 일관성 및 깊이와 같은 메트릭을 손상시키지 않으면서 생성된 글의 지식 밀도를 향상시키는 것으로 나타났습니다. 인간 평가 및 전문가 피드백은 긴 형식의 글 생성에서 실제 문제를 해결하기 위한 OmniThink의 잠재력을 더욱 강조합니다.소스 및 관련 콘텐츠

출처: “한국어로 번역해”. Gemini Advanced 2.0 Experimental Advanced. 2025.01.30.

[논문] Evolving Deeper LLM Thinking

作者Baro
2025年1月30日 14:17

https://arxiv.org/abs/2501.09891

We explore an evolutionary search strategy for scaling inference time compute in Large Language Models. The proposed approach, Mind Evolution, uses a language model to generate, recombine and refine candidate responses. The proposed approach avoids the need to formalize the underlying inference problem whenever a solution evaluator is available. Controlling for inference cost, we find that Mind Evolution significantly outperforms other inference strategies such as Best-of-N and Sequential Revision in natural language planning tasks. In the TravelPlanner and Natural Plan benchmarks, Mind Evolution solves more than 98% of the problem instances using Gemini 1.5 Pro without the use of a formal solver.

마인드 에볼루션 알고리즘 (사진=아카이브)

우리는 대규모 언어 모델(LLM)에서 추론 시간 계산을 확장하기 위한 진화적 검색 전략을 탐구합니다. 제안된 접근 방식인 Mind Evolution은 언어 모델을 사용하여 후보 응답을 생성, 재조합 및 개선합니다. 이 접근 방식은 솔루션 평가자가 있을 때마다 기본 추론 문제를 형식화할 필요성을 없애줍니다. 추론 비용을 제어하면서 Mind Evolution은 자연어 계획 작업에서 Best-of-N 및 Sequential Revision과 같은 다른 추론 전략보다 성능이 훨씬 뛰어나다는 것을 알았습니다. TravelPlanner 및 Natural Plan 벤치마크에서 Mind Evolution은 공식 솔버를 사용하지 않고 Gemini 1.5 Pro를 사용하여 문제 인스턴스의 98% 이상을 해결합니다.

출처: “번역해”. Gemini Advanced 2.0 Experimental Advanced. 2025.01.30.

[논문] 생성형 AI, 고등 교육의 새로운 계산기?

作者Baro
2025年1月30日 13:51

The New Calculator? Practices, Norms, and Implications of Generative AI in Higher Education. https://arxiv.org/abs/2501.08864

Simkute 외(2025)의 논문에서는 고등 교육에서 생성형 AI(GenAI)의 사용 현황, 규범, 그리고 그 영향에 대한 심층적인 연구를 수행했습니다. 본 연구는 2023년 12월부터 2024년 2월까지 영국 내 두 개 대학의 다양한 학과 학생 26명과 교수 11명을 대상으로 반 구조화된 인터뷰를 통해 진행되었습니다.  

학생들의 GenAI 사용 현황

학생들은 주로 ChatGPT를 통해 텍스트 생성을 수행했으며, 일부는 DALL-E 또는 Midjourney와 같은 도구를 사용하여 이미지 생성을 수행했습니다. GenAI 도구는 교육 관련 과제에서 튜터, 보조자, 아이디어 파트너의 세 가지 역할을 수행했습니다.  

  • 튜터: 학생들은 GenAI 도구를 사용하여 이론 및 읽기 자료와 같은 학습 자료를 설명하고, 과제에 대한 피드백을 얻었으며, 데이터 분석 및 코딩과 같은 과제를 안내받았습니다.  
  • 보조자: GenAI 도구는 정보 요약, 연구 논문 검색, 문법 수정, 표절 방지를 위한 표현 변경, 에세이 개요 작성 등에 활용되었습니다.  
  • 아이디어 파트너: GenAI 도구는 아이디어를 생성하고 질문에 답변하는 브레인스토밍 파트너 역할을 수행했습니다.  

GenAI 사용의 동기

학생들은 GenAI 도구의 가용성, 효율성, 사고 조종 능력, 학습 자료에 대한 깊이 있는 참여 기회 등을 이유로 GenAI를 사용했습니다.  

  • 가용성: GenAI 도구는 언제 어디서나 이용 가능하며, 다른 사람들에게 의존하거나 방해하지 않고도 도움을 받을 수 있다는 장점이 있습니다.  
  • 효율성: GenAI 도구는 텍스트 요약, 검색 범위 좁히기, 특정 질문에 대한 답변 제공 등을 통해 학습 시간을 단축하는 데 도움을 주었습니다.  
  • 사고 조종: GenAI 도구는 학생들의 창의적 사고를 자극하고 문제 해결 과정을 안내하는 데 도움을 주었습니다.  
  • 학습 자료에 대한 깊이 있는 참여: GenAI 도구는 학생들이 학습 자료를 더 깊이 이해하고 참여할 수 있도록 지원했습니다.  

대학의 GenAI 관련 지침 및 소통 현황

학생들은 대학의 GenAI 지침이 불분명하고 효과적으로 전달되지 않았다고 인식했습니다. 교수들은 GenAI 사용을 어느 정도 허용해야 한다고 생각했지만, 공개적으로 논의하는 데 어려움을 느꼈습니다. 반면, 학생들 사이에서는 GenAI에 대한 소통이 활발하게 이루어졌습니다.  

학생들의 자기 관리

명확한 지침과 소통의 부재 속에서 학생들은 GenAI 사용에 대한 자기 관리 규칙을 만들었습니다. 이러한 규칙에는 적절하고 윤리적인 사용에 대한 암묵적인 규칙, 효과적인 사용을 위한 의존 전략, 기술 개발에 대한 고려 사항 등이 포함되었습니다.  

GenAI 사용의 영향

GenAI 도구 사용과 대학 환경은 학생들의 자신감 변화, 기술 개발에 대한 우려, 교수와의 관계, 표절에 대한 불안감 등 다양한 영향을 미쳤습니다.  

  • 자신감: 일부 학생들은 GenAI 도구 사용 후 자신의 능력에 대한 자신감이 높아졌지만, GenAI의 뛰어난 성능으로 인해 자신감이 떨어진 학생들도 있었습니다.  
  • 기술 개발에 대한 우려: 학생들은 특정 과제에 GenAI 도구를 과도하게 사용하면 기존 기술이 저하되거나 미래에 필요한 기술을 개발하지 못할 수 있다는 우려를 표명했습니다.  
  • 교수와의 관계: 학생들은 GenAI에 의존하면 교수와의 관계가 부정적인 영향을 받을 수 있다고 우려했습니다.  
  • 표절 불안: 학생들은 표절로 인해 불이익을 받을 수 있다는 불안감을 느꼈습니다.  

고등 교육에서 GenAI의 미래 역할

학생들은 대학이 GenAI에 대한 접근 방식을 바꾸고, GenAI 도구를 효과적이고 윤리적으로 사용할 수 있도록 지원해야 한다고 주장했습니다. 학생과 교수 모두 GenAI 도구 사용에 대한 명확한 지침과 교육을 원했습니다. 또한 GenAI의 현실에 맞는 평가 방식 변화와 GenAI를 학습 과정에 통합해야 한다는 점에 동의했습니다.  

결론

본 연구는 고등 교육에서 GenAI의 초기 사용 현황을 다각적으로 조명하고, Strong Structuration Theory를 통해 기술, 개인, 그리고 사회적 구조 사이의 복잡한 상호 작용을 분석했습니다. 1 이러한 연구 결과는 GenAI가 고등 교육에 미치는 영향을 이해하고, 앞으로의 교육 정책 및 교육 현장에서의 GenAI 활용 방안을 모색하는 데 중요한 시사점을 제공합니다.

출처: “본 내용을 한국어로 블로그에 소개하는 내용으로 요약해. 다만, 맨 처음에 해당 논문에 대한 인용 정보와 링크를 반드시 삽입해.”/ “연구 내용을 보다 상세하게 설명해.” . Gemini Advanced 2.0 Experimental Advanced. 2025.01.30.

바로: 생성형AI의 교육에서의 활용도 고민해야겠지만, 금액, 인식 등의 문제로 생성형AI를 활용한 교육 자체가 안되는 “생성형AI 격차”에 대해서도 고민할 필요가 있다고 생각함.

[논문] HERITAGE: An End-to-End Web Platform for Processing Korean Historical Documents in Hanja

作者Baro
2025年1月30日 13:36

https://arxiv.org/abs/2501.11951

Hanja Processing Platform: https://hanja.dev

YouTube: HERITAGE: An End-to-End Web Platform for Processing Korean Historical Documents in Hanja

Seyoung SongHaneul YooJiho JinKyunghyun ChoAlice Oh

While Korean historical documents are invaluable cultural heritage, understanding those documents requires in-depth Hanja expertise. Hanja is an ancient language used in Korea before the 20th century, whose characters were borrowed from old Chinese but had evolved in Korea for centuries. Modern Koreans and Chinese cannot understand Korean historical documents without substantial additional help, and while previous efforts have produced some Korean and English translations, this requires in-depth expertise, and so most of the documents are not translated into any modern language. To address this gap, we present HERITAGE, the first open-source Hanja NLP toolkit to assist in understanding and translating the unexplored Korean historical documents written in Hanja. HERITAGE is a web-based platform providing model predictions of three critical tasks in historical document understanding via Hanja language models: punctuation restoration, named entity recognition, and machine translation (MT). HERITAGE also provides an interactive glossary, which provides the character-level reading of the Hanja characters in modern Korean, as well as character-level English definition. HERITAGE serves two purposes. First, anyone interested in these documents can get a general understanding from the model predictions and the interactive glossary, especially MT outputs in Korean and English. Second, since the model outputs are not perfect, Hanja experts can revise them to produce better annotations and translations. This would boost the translation efficiency and potentially lead to most of the historical documents being translated into modern languages, lowering the barrier on unexplored Korean historical documents.

한국의 역사 문서는 귀중한 문화 유산이지만, 이러한 문서를 이해하려면 심층적인 한자 전문 지식이 필요합니다. 한자는 20세기 이전 한국에서 사용되었던 고대 언어로, 그 문자는 고대 중국에서 차용되었지만 수세기 동안 한국에서 발전해 왔습니다. 현대 한국인과 중국인은 실질적인 추가 도움 없이는 한국 역사 문서를 이해할 수 없으며, 이전의 노력으로 일부 한국어 및 영어 번역이 생성되었지만, 이는 심층적인 전문 지식이 필요하기 때문에 대부분의 문서는 여전히 현대 언어로 번역되지 않고 있습니다. 이러한 격차를 해소하기 위해, 우리는 한자로 작성된 미개척 한국 역사 문서의 이해와 번역을 돕기 위한 최초의 오픈 소스 한자 NLP 툴킷인 HERITAGE를 제시합니다. HERITAGE는 한자 언어 모델을 통해 역사 문서 이해에 중요한 세 가지 작업(구두점 복원, 개체명 인식, 기계 번역(MT))의 모델 예측을 제공하는 웹 기반 플랫폼입니다. HERITAGE는 또한 한자 문자의 현대 한국어 음독과 문자 수준의 영어 정의를 제공하는 대화형 용어집을 제공합니다. HERITAGE는 두 가지 목적을 제공합니다. 첫째, 이러한 문서에 관심이 있는 모든 사람은 모델 예측과 대화형 용어집, 특히 한국어 및 영어로 된 MT 출력을 통해 전반적인 이해를 얻을 수 있습니다. 둘째, 모델 출력이 완벽하지 않기 때문에 한자 전문가가 이를 수정하여 더 나은 주석과 번역을 생성할 수 있습니다. 이를 통해 번역 효율성이 향상되고 잠재적으로 대부분의 역사 문서가 현대 언어로 번역되어 미개척 한국 역사 문서에 대한 장벽을 낮출 수 있습니다.

핵심 요약

  • 문제: 한국 역사 문서는 대부분 한자로 작성되어 현대 한국인과 외국인이 이해하기 어렵고, 번역된 자료도 부족합니다.
  • 해결책: HERITAGE라는 오픈 소스 한자 자연어 처리(NLP) 툴킷을 개발했습니다.
  • 기능:
    • 웹 기반 플랫폼으로, 구두점 복원, 개체명 인식, 기계 번역(한국어/영어) 기능을 제공합니다.
    • 한자-한국어/영어 대화형 용어집을 제공합니다.
  • 목적:
    • 일반인에게 한국 역사 문서에 대한 기본적인 이해를 제공합니다.
    • 한자 전문가의 번역 작업을 돕고 효율성을 높여, 더 많은 역사 문서의 번역을 가능하게 합니다.
  • 결론: HERITAGE는 한국 역사 문서에 대한 접근성을 높이고, 문화 유산 보존에 기여할 것으로 기대됩니다.

출처: “한국어로 전체를 번역한 것을 출력하고, 핵심 요약본도 출력해.”. Gemini Advanced 2.0 Experimental Advanced. 2025.01.30.

디지털인문학(KJDH) 1권 2호

作者김병준
2024年12月20日 12:41

KADH의 학술지 <디지털인문학(KJDH)> 1권 2호가 나왔습니다.

목차

  1. The Global Digitalization of the University and Language in the Era of APT: A Prompt Response to “AI and the University as a Service”
  2. Network Analysis of the Narrator and Characters in Fitzgerald’s The Great Gatsby
  3. 신문기사 텍스트마이닝으로 본 제1공화국 시기 ‘主權’의 담론과 의미
  4. 이상 단편소설 기초·감각 데이터셋
  5. 근대 국한문혼용체 자료 서브워드 기반 형태소 분석기의 설계와 적용
  6. 디지털과 인문학의 가교: 디지털 인문학에 관한 크리스토프 소흐 교수와의 인터뷰

발행일: 2024년 11월 30일
링크: 디지털인문학 제1권 제2호

[논문] Large Language Models based on historical text could offer informative tools for behavioral science

作者김병준
2024年10月10日 08:03

(deepl 번역)

인간 행동에 대한 연구는 전통적으로 현재에 초점을 맞춥니다. 결국 사람들은 현재 살아 있지 않으면 설문조사에 응하거나 실험에 참여할 수 없습니다. 여기에서는 이러한 한계를 해결할 수 있는 방법, 즉 역사적 대규모 언어 모델(HLLM)을 사용하는 방법을 제안합니다. 역사 텍스트 말뭉치에 대해 학습된 이러한 생성 모델은 시뮬레이션된 역사적 참여자 집단을 제공할 수 있습니다. 원칙적으로 이러한 가짜 개인들의 반응은 과거 사회의 심리를 반영하여 인간 본성에 대한 보다 강력하고 학제적인 과학을 가능하게 합니다.

(원문 초록)

The study of human behavior traditionally focuses on the here and now. After all, people cannot take surveys or participate in experiments if they are not alive today. Here, we propose a way to address this limitation—namely, the use of Historical Large Language Models (HLLMs). These generative models, trained on corpora of historical texts, may provide populations of simulated historical participants. In principle, responses from these faux individuals can reflect the psychology of past societies, allowing for a more robust and interdisciplinary science of human nature.

Large Language Models based on historical text could offer informative tools for behavioral science | PNAS

[논문] 사회 네트워크 분석을 통해 본 1940년대 후반 중국 언론 지형과 제3세력 (배건준, 2024)

作者김병준
2024年8月22日 10:17

배건준 선생님의 논문. 깃허브에 연구에 활용한 데이터와 코드를 공유하고, 데이터 처리과정을 자세히 적어두었음. 연구 신뢰도 향상과 논문을 읽는 독자들에게 도움이 되는 모범적인 사례.

초록

이 논문은 1940년대 후반 중국 제3세력의 위상을 확인하기 위해, 1945년부터 1949년까지 발행된 잡지의 색인 데이터를 바탕으로, 저자와 잡지를 중심으로 한 사회 네트워크 분석을 시행한다. 지식인으로서 언론을 통한 정치 담론 생산과 여론 호소가 정치활동의 주를 이뤘던 제3세력의 성격과 관련해, 언론 지형 속 위치로부터 그들의 정치적 위상을 확인하고자 한다.
5년 전체 시기의 데이터를 시각화하면 당시 언론 지형에서 제3세력 잡지가 국공 양당 잡지와 구분되는 독자적인 영역을 차지했음을 확인할 수 있다. 제3세력 잡지 영역은 중심부, 우측 하단, 좌측 하단으로 나눌 수 있는데, 중심부에는 정치 결사 중심 잡지, 우측 하단에는 자유주의 성향 잡지, 좌측 하단에는 민주동맹 계열 잡지가 위치한다. 이 같은 분화는 소속 단체, 지역, 활동 시기 등에 따라 제3세력 내에서도 실천 방식과 구체적인 지향에 차이가 존재했음을 보여준다.
이어서 1년 단위 시계열 분석을 시행하여, 정협에서 내전 격화로 이어지는 정치 변동 속에 나타난 잡지별 위상 변화와 그에 따른 언론 지형의 변동 양상을 검토했다. 제3세력 잡지 내에서 1946년 이전에는 정치 결사를 중심으로 한 잡지가, 1947년 이후에는 자유주의 성향의 잡지가 주류를 차지한다. 제3세력 잡지와 국공 양당 잡지 간의 관계 변화도 확인할 수 있다.
끝으로 본 연구의 한계점으로부터 중국근현대사 분야의 디지털역사학 방법론 도입이 여전히 활발하지 못한 이유를 논하고, 그럼에도 ‘멀리서 읽기’ 시도가 이루어질 필요성을 제기한다.

This study conducts a Social Network Analysis centered on authors and journals based on indexing data from magazines published from 1945 to 1949 to confirm the status of the third force in late 1940s China. It a ims to identify the political statu s of the third force from their positions in the m edia l andscape. Visu al e xamination o f the data s panning the five-year period reveals that third force journals occupied a distinctive territory separate from those of the Nationalist Party (KMT) and the Communist Party o f China (CCP) in the media l andscape. The territory of third force journals can be categorized into politically-oriented journals in the center, liberalist journals in the lower right, and journals affiliated with the China Democratic League (CDL) in the lower left. Such categorization within the third force journals illustrates differences in tactics and specific orientations within the group based on affiliation, region, and period of activity. Through a time-series analysis conducted annually, this study examines changes in the status of journals and corresponding shifts in the media landscape during political turbulence from the Political Consultative Conference (PCC) to the Chinese Civil War. Finally, it discusses the reasons why the adoption of Digital History methods in the field of modern Chinese history remains insufficient, emphasizing the need for efforts in “Distant reading”.

[논문] Character as a Web of Words: Towards a Network Theory of Narrative / Yongsoo Kim

作者Baro
2024年7月8日 23:30

This study explores an integration of network science and structuralist narratology to advance the analysis of literary characters, moving beyond the conventional methodology that simplistically categorizes characters as mere nodes within a social network. By drawing upon Seymour Chatman’s narrative theory, particularly his view of character as “a paradigm of traits,” I conceptualize characters as networks of words that manifest a constellation of traits. This approach enables a sophisticated examination of character interactions as complex (mis)encounters of words and traits, rather than simple social relationships. This interdisciplinary method broadens the analytical scope beyond mere social interactions, and enhances our understanding of the multifaceted nature of characters and their dynamics in literature. My paper concludes by suggesting that networked understanding of character as a web of words can pave the way for “a unified theory of plot and style,” a significant breakthrough in literary studies as envisioned by Moretti. Building a comprehensive network theory of narrative, I argue, is a significant work that will refine the digital literary studies and revive the structuralist narrative theories.

본 논문은 네트워크 인물론을 제시함으로써 연결망 서사 이론의 가능성을 탐구한다. 디지털인문학의 연결망 분석 방법론을 서사의 핵심 요소 중 하나인 인물을 이해하는 데 적용하는 것이다. 문학 연구에서 아직 성숙하지 않은 디지털인문학적 접근과 한 동안 비평 이론의 관심에서 벗어나 있던 구조주의 서사 이론을 결합하려는 시도이기도 하다. 새로운 방법과 오래된 이론의 만남인 셈이다. “특성의 패러다임”이라는 채트먼(Seymour Chatman)의 인물론을 네트워크 이론으로 재해석하여 인물의 성격 구성과 인물 간 관계를 수많은 단어의 연결망으로 제시한다. 이는 문학 작품에 연결망 분석을 적용한 지금까지의 디지털 문학 연구에 대해 비판하는 것과 함께 기법, 문체, 양식 등 문학의 형식적 측면에 주목했던 구조주의 문학 이론을 다시 현재의 비평 장에 불러들여 그 가치를 새롭게 조명한다는 의미를 지닌다. 서사 이론이 제시한 인물론을 복원함으로써 인물을 연결망의 기본 단위로만 인식했던 기존의 디지털인문학적 연구를 넘어설 수 있을 뿐만 아니라 서사 이론이 디지털 문학 연구와 네트워크 분석에 수많은 영감을 불어넣을 수 있는 원천임을 증명하고자 한다. 이는 연결망 서사 이론을 향해 나아가는 여정의 중요한 출발점이 될 것이다.

Character as a Web of Words: Towards a Network Theory of Narrative
네트워크 인물론: 연결망 서사 이론을 향하여

https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003098428

전체TEXT:

https://scholar.kyobobook.co.kr/article/detail/4010069538194

http://www.theorics.org/subList/32000000565

https://github.com/vadoro/salome

디지털인문학(KJDH) 창간호

作者김병준
2024年7月2日 08:50

학술지 <디지털인문학(Korean Journal of Digital Humanities)> 창간호

발간일 : 2024.05.31

간행사

한국에서 대개 ‘~~학회’라는 이름을 달고 있는 학술단체의 활동으로는 학술대회 개최와 학술지 간행이라는 두 가지를 들 수 있습니다. 이 관행이 너무 굳어져서 학술단체가 수행할 수 있는 학술활동에 대한 연구자들의 상상력을 제약하는 측면도 있기는 합니다만, 그래도 학술단체가 제대로 자리를 잡고 활발하게 활동하고 있다는 인상을 주려면 이 두 가지가 거의 필수처럼 느껴지기도 합니다. 특히 연구자의 연구 활동이 학술지에 실은 논문 위주로 평가되는 풍조가 형성되어, 학술지의 중요성이 더욱 커졌습니다. 그런 점에서 지금까지 한국에 디지털인문학 전문 학술지가 없었다는 것은 이 분야에 관심을 가진 연구자들에게 큰 아쉬움이었습니다. 우리 한국디지털인문학협의회가 이번에 학술지를 간행하게 됨으로써 이 분야 연구자들의 오랜 바람이 이루어지게 되었습니다. 우리 모두가 함께 축하할 일입니다.

  물론 학술지를 창간하는 것만으로 많은 문제가 저절로 해결되는 것은 아닙니다. 한국의 디지털인문학이 넘어야 할 산이 많이 있습니다. 좋은 연구, 좋은 논문은 좋은 교육 시스템으로부터 나옵니다. 디지털인문학에 대한 좋은 교육 시스템을 갖추지 못한 상태에서 각 개인 연구자가 영웅적인 노력을 통해 좋은 연구를 하고 좋은 논문을 내놓으리라고 기대하는 것은 무리입니다. 최근 여러 대학에서 디지털인문학과 관련된 교과목이나 교육 프로그램이 속속 개설되고 있기는 하지만, 정말 내실 있고 수준 높은 교육이 이루어지도록 하기 위해서는 앞으로 노력해야 할 것이 많습니다.

  또한 디지털인문학에 대해 비판적, 부정적인 시각을 가지고 있는 사람들도 아직 꽤 많이 있습니다. 디지털이라는 유행에 손쉽게 편승하여 멋있게 포장하려고만 하고 인문학의 본질에 대한 성찰이나 훈련이 부족한 것 아니냐는 비판도 있고, 데이터 수집과 구축이라든지 개념적, 예비적 논의에만 치중하여 정작 이를 활용한 연구는 부진한 것 같다는 시각도 있습니다. 이러한 우려를 불식시키기 위해서 인문학 본연의 이론과 방법론도 탄탄하게 다진 바탕 위에서 디지털적 방법과 관점을 효과적으로 추가하는 수준 높은 연구를 항상 추구해야 할 것입니다.

  이렇게 우리 앞에 과제가 산적해 있기는 하지만, 학술지를 창간한다는 것만으로도 매우 의미 있는 큰 첫걸음이라고 할 만합니다. 디지털인문학 연구는 학제적 성격을 띠는 경우가 많아서 논문을 투고하려고 할 때, 기성 학문 체계에 따라 편성되어 있는 학술지들 중 어느 것도 딱 맞지 않는 일이 종종 있었습니다. 디지털인문학을 정면으로 표방하는 학술지가 탄생함으로써 이러한 불편이 해소될 것입니다. 또한 아시아 및 세계 여러 나라의 디지털인문학 단체들 사이의 국제적 교류가 점점 더 활발해지고 있는데, 우리보다 앞선 나라에서는 디지털인문학 전문 학술지가 이미 간행되고 있는 경우가 많아서, 우리도 학술지를 간행한다는 것이 국제 교류에서도 큰 의미를 갖습니다.

  이번 창간호를 준비하면서 학회 임원들, 편집위원들이 정말 수고를 많이 하셨습니다. 이 자리를 빌려 그 노고에 깊이 감사드립니다. 우리 모두가 앞으로 더욱 노력하여 우리 학술지가 높은 학문적 수준을 유지하고 점점 더 발전할 수 있도록 노력하겠습니다.

2024. 5. 31.
한국디지털인문학협의회(KADH) 회장 박진호

전체 논문 파일

목차

구분제목저자
Special Contribution디지털 큐레이션: 미래 세대를 위한 디지털 인문학 교육김현
Research Paper링크드 데이터, 무엇을 어떻게 연결하는가?박진호
인도 논서(śāstra) 문헌군 TEI 인코딩 전략- 해석적 층위의 데이터를 중심으로함형석
DHmakes: Baking Craft into DH DiscourseDombrowski, Quinn et al
Kiwi: 통계적 언어 모델과 Skip-Bigram을 이용한 한국어 형태소 분석기 구현이민철
Data PaperShakespearean Character Network DatasetKim, Heejin
국사편찬위원회 한국근현대잡지자료 데이터(2024.03.27.)김바로
Translation멀리서 읽기, 전산비평, 사회비평: 프랑코 모레티와의 인터뷰이재연

[논문] 한국문학 자료 구축의 한 방안: 한국어학과 한국문학의 상호 발전을 위하여

作者김병준
2024年4月6日 16:55

“이 글에서는 한국어학과 한국문학의 상호 발전을 위해 한국어학계와 한국문학계의 조화 방향을 모색하였다. 이를 위해 이 글에서는 각 학계의 사정을 살펴보고 디지털인문학적인 관점에서의 상호 발전 방향을 고찰하였다. 이를 정리하면 다음과 같다. 첫째, 한국어학계에서는 비교적 이른 시기부터 언어자료를 데이터베이스화하여 코퍼스로 구축하여 연구에 도입하고 있었다. 그리고 이를 통해 많은 가시적인 성과를 거둔 바 있다. 하지만 최근에는 한국어학계 또한 대기업의 거대언어모델 도입 및 인공지능의 발달 속도로 인한 어려움이 있었다. 둘째, 한국문학계에서는 비교적 최근에 문학 작품들이 데이터베이스화되면서, 이러한 자료들을 연구에 활용하는 연구가 등장하기 시작하였다. 하지만 자료 구축의 어려움, 자료 이용의 편의성 등 해결해야 할 여러 문제가 있음을 확인할 수 있었다. 셋째, 이러한 한국어학계/한국문학계의 상황에 대해 본고에서는 한국문학계의 자료 구축에 한국어학계의 참여가 필요하다고 주장하였다. 그리고 이러한 협업을 통해 한국어학과 한국문학의 진정한 화학적 결합이 가능하다고 판단하였다.”

이성우. (2024). 한국문학 자료 구축의 한 방안: 한국어학과 한국문학의 상호 발전을 위하여. 국어국문학, 206, 73-106.

https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003069024

김병준 : 한국어문학 전반의 DH 연구와 주요 데이터베이스를 체계적으로 정리하고, 어학과 문학이 만나는 지점으로서의 DH를 강조함.

[논문] What Should Data Science Education Do with Large Language Models? / 데이터 과학 교육은 대규모 언어 모델로 무엇을 해야 합니까?

作者Baro
2024年3月25日 23:17

[Submitted on 6 Jul 2023 (v1), last revised 7 Jul 2023 (this version, v2)]

What Should Data Science Education Do with Large Language Models?

Xinming TuJames ZouWeijie J. SuLinjun Zhang

The rapid advances of large language models (LLMs), such as ChatGPT, are revolutionizing data science and statistics. These state-of-the-art tools can streamline complex processes. As a result, it reshapes the role of data scientists. We argue that LLMs are transforming the responsibilities of data scientists, shifting their focus from hands-on coding, data-wrangling and conducting standard analyses to assessing and managing analyses performed by these automated AIs. This evolution of roles is reminiscent of the transition from a software engineer to a product manager. We illustrate this transition with concrete data science case studies using LLMs in this paper. These developments necessitate a meaningful evolution in data science education. Pedagogy must now place greater emphasis on cultivating diverse skillsets among students, such as LLM-informed creativity, critical thinking, AI-guided programming. LLMs can also play a significant role in the classroom as interactive teaching and learning tools, contributing to personalized education. This paper discusses the opportunities, resources and open challenges for each of these directions. As with any transformative technology, integrating LLMs into education calls for careful consideration. While LLMs can perform repetitive tasks efficiently, it’s crucial to remember that their role is to supplement human intelligence and creativity, not to replace it. Therefore, the new era of data science education should balance the benefits of LLMs while fostering complementary human expertise and innovations. In conclusion, the rise of LLMs heralds a transformative period for data science and its education. This paper seeks to shed light on the emerging trends, potential opportunities, and challenges accompanying this paradigm shift, hoping to spark further discourse and investigation into this exciting, uncharted territory.

Subjects:Computers and Society (cs.CY); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
Cite as:arXiv:2307.02792 [cs.CY]
 (or arXiv:2307.02792v2 [cs.CY] for this version)
 https://doi.org/10.48550/arXiv.2307.02792

[논문] 한국전쟁 역사 자료에서 지식 그래프와 온톨로지를 구축하기 위한 지식 추출 및 표현 기법 / 박지연, 김홍중

作者Baro
2024年3月21日 15:45

RISS: https://www.riss.kr/link?id=A108945832

KCI: https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003048775

KISS: https://kiss.kstudy.com/Detail/Ar?key=4070842

초록:

한국전쟁과 관련하여 다양한 역사 자료와 기록물이 존재하고 이러한 자료들을 효과적으로 관리하고 활용 분야를 넓히고자 하는 연구가 활발하게 진행되고 있다. 특히 고급 인공지능 기술 중 하나인 지식 그래프는 기록물을 효과적으로 관리하고 분석하기 위해 유용하게 쓰이며 활용할 수 있는 분야가 매우 넓은 기술이다. 본 논문은 딥러닝을 이용하여 한국전쟁 역사 자료에서 정보를 추출하고, 상호연결된 정보를 지식 그래프로 시각화할 수 있는 효과적인 방법을 제안한다. 본 논문에서 설계한 딥러닝 모델은 전투명, 부대명, 무기명, 인명 등의 태그를 학습하고 이러한 태그로 분류될 수 있는 개체명을 자료에서 정확도 높게 인식하기 때문에 전쟁사 자료 연구에 매우 효과적이다. 그리고 본 연구에서 개체 간의 연관성을 수학적인 확률로 수치화하였고, 개체 간의 다양한 관계를 지식 그래프에서 시각화함으로써 문맥적 정보와 역사적 정보를 직관적으로 이해할 수 있도록 하였다. 본 연구는 딥러닝 기술을 활용해 관련된 지식을 추출하고 온톨로지 구축을 통해 이들을 연결하여 상호작용하는 모습을 파악함으로써 한국 역사 연구에 새로운 시각과 관점을 제공하고자 하고 한국 역사 연구의 질적 향상에 기여하고자 한다.

류인태: 수학 전공 연구자가 쓴 디지털 역사학 논문

❌