普通视图

Received before yesterday

TimeCapsuleLLM

作者김병준
2026年1月15日 09:39

[출처] GeekNews

  • TimeCapsuleLLM은 특정 시기(1800~1875년)의 자료만으로 학습된 대형 언어 모델(LLM) 로, 현대적 편향을 최소화하고 당시의 언어와 세계관을 재현하는 목적
  • 모델은 런던 지역의 역사적 문서, 서적, 신문, 법률 문서 등으로 구성된 데이터셋을 사용해 시대별 언어 스타일과 어휘를 반영
  • 초기 버전은 nanoGPT, 이후 버전은 Microsoft Phi 1.5 기반으로 구축되었으며, 데이터 규모는 최대 90GB, 모델 파라미터는 최대 700M
  • Selective Temporal Training(STT) 방식을 통해 특정 시기의 데이터만을 선별해 학습, 현대 개념이 포함되지 않도록 설계
  • 역사적 언어모델 연구와 시대별 인공지능 언어 재현 가능성을 보여주는 실험적 프로젝트

프로젝트 개요

  • TimeCapsuleLLM은 특정 시기와 장소의 데이터만으로 학습된 언어 모델로, 현대적 편향을 줄이고 해당 시대의 어휘·문체·세계관을 재현하는 목표
    • “AI가 단순히 역사적 인물을 흉내내는 것이 아니라, 실제로 그 시대의 언어를 사용하는 모델”이라는 개념 제시
  • 초기 버전(v0, v0.5)은 Andrej Karpathy의 nanoGPT를 기반으로, v1은 Microsoft Phi 1.5를 기반으로 개발
  • 모델은 Hugging Face에서 공개되어 있음

게시물 TimeCapsuleLLMKADH / 한국디지털인문학협의회에 처음 등장했습니다.

Omnilingual ASR: 메타의 1600개 언어 지원 오픈소스 음성인식 모델

作者Baro
2025年11月12日 22:39

https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition

https://github.com/facebookresearch/omnilingual-asr

https://aidemos.atmeta.com/omnilingualasr/language-globe

온라인 도구: https://huggingface.co/spaces/facebook/omniasr-transcriptions

논문: https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages

Meta AI가 1,600개 이상의 언어를 지원하는 새로운 자동 음성 인식(ASR) 기술인 ‘옴니링구얼 ASR(Omnilingual ASR)’을 공개했습니다. 이 기술의 주요 내용은 다음과 같습니다.

핵심 기능 및 성과:

  • 광범위한 언어 지원: 1,600개 이상의 언어에 대한 음성-텍스트 변환을 지원합니다. 이는 기존 ASR 시스템이 지원하지 못했던 500개 이상의 ‘저자원 언어'(데이터가 부족한 언어)를 포함하는 규모입니다.
  • 높은 정확도: 대규모(최대 7B 파라미터) 모델과 방대한 학습 데이터를 기반으로, 적은 학습 데이터로도 높은 인식 정확도를 달성합니다.
  • 확장성 (In-context Learning): LLM(거대 언어 모델)에서 영감을 받은 아키텍처를 채택하여, ‘제로샷 학습’ 또는 ‘인컨텍스트 학습’이 가능합니다. 이는 모델이 공식적으로 학습하지 않은 새로운 언어라도 단 몇 개의 예시(샘플)만으로도 인식하고 확장할 수 있음을 의미합니다.

기술적 특징:

  • 자기 지도 학습(Self-supervised learning): 라벨이 지정된 데이터가 적더라도 음성의 보편적인 패턴을 학습할 수 있습니다.
  • 인코더-디코더 아키텍처: 견고한 음성 표현을 학습하는 인코더와 이를 텍스트로 변환하는 디코더 구조를 사용합니다.
  • 다양한 모델 크기: 클라우드 환경을 위한 고성능 7B 모델부터 저전력 기기(온디바이스)에서 실행 가능한 300M 크기의 경량 모델까지 다양한 버전을 제공합니다.

의의 및 목표:

  • 오픈소스 및 커뮤니티 기반: 옴니링구얼 ASR 모델과 ‘옴니링구얼 ASR 코퍼스’ 데이터셋을 아파치 2.0 라이선스로 오픈소스로 공개했습니다.
  • 디지털 접근성 향상: 전 세계의 더 많은 언어 커뮤니티가 음성 기술의 혜택을 누릴 수 있도록 장벽을 낮추고, 커뮤니티가 직접 자신의 언어를 기술에 추가할 수 있도록 지원하는 것을 목표로 합니다.

게시물 Omnilingual ASR: 메타의 1600개 언어 지원 오픈소스 음성인식 모델KADH / 한국디지털인문학협의회에 처음 등장했습니다.

EuroLLM: 유럽 언어 LLM

作者Baro
2025年11月2日 21:42

eurollm.io

https://huggingface.co/blog/eurollm-team/eurollm-9b

  • EuroLLM은 유럽 내 연구기관이 공동 개발한 24개 공식 EU 언어 지원 대형언어모델(LLM) 로, 유럽의 AI 주권과 기술 자립을 목표로 함
  • 유럽연합의 공식 언어는 총 24개: 불가리아어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스토니아어, 핀란드어, 프랑스어, 독일어, 그리스어, 헝가리어, 아일랜드어, 이탈리아어, 라트비아어, 리투아니아어, 몰타어, 폴란드어, 포르투갈어, 루마니아어, 슬로바키아어, 슬로베니아어, 스페인어, 스웨덴어. 실제 사용 RAWDATA 미공개
  • 9B 파라미터 모델로, 35개 언어에서 4조 개 이상의 토큰으로 학습되어 질문응답, 요약, 번역 등 언어 과제에 강점을 보인다고 하지만…실제 성능은…별로라는 평.
  • EuroLLM 9B Base는 파인튜닝용으로 공개되었으며, EuroLLM 9B Instruct는 대화형 지시 수행 기능을 갖춘 버전으로 Hugging Face에서 사용 가능

바로: 현재 한국에서 진행중인 승자 선정형으로 진행된 것으로 보임. 승자 선정형은 정부 정보 비대칭, 시강 왜곡, 도덕적 해이 등의 분명한 문제가 있음. 그런데 한국처럼 기본적인 체급이 현실적으로 한계가 있는 상황에서는 반도체 시장 처럼 승자 선정형으로 갈 수 밖에 없는 한계도 분명히 있음…

게시물 EuroLLM: 유럽 언어 LLMKADH / 한국디지털인문학협의회에 처음 등장했습니다.

Chandra OCR

作者Baro
2025年10月25日 03:30

https://github.com/datalab-to/chandra

찬드라 (Chandra)

찬드라(Chandra)는 이미지와 PDF를 레이아웃 정보를 보존하면서 구조화된 HTML/Markdown/JSON으로 변환하는 매우 정확한 OCR 모델입니다.

특징

  • 문서를 자세한 레이아웃 정보가 포함된 마크다운, HTML 또는 JSON으로 변환
  • 우수한 필기체 지원
  • 체크박스를 포함한 양식을 정확하게 재구성
  • 표, 수학 수식, 복잡한 레이아웃에 대한 우수한 지원
  • 캡션 및 구조화된 데이터와 함께 이미지 및 다이어그램 추출
  • 40개 이상의 언어 지원
  • 두 가지 추론 모드: 로컬 (HuggingFace) 및 원격 (vLLM 서버)

게시물 Chandra OCRKADH / 한국디지털인문학협의회에 처음 등장했습니다.

PaddleOCR

作者Baro
2025年10月23日 19:35

https://github.com/PaddlePaddle/PaddleOCR

addleOCR은 문서와 이미지를 업계 최고 수준의 정확도로 JSON 및 Markdown과 같은 구조화되고 AI 친화적인 데이터로 변환하여, 전 세계 인디 개발자와 스타트업부터 대기업에 이르는 모두를 위한 AI 애플리케이션을 지원합니다.

50,000개 이상의 (GitHub) 스타를 획득하고 MinerU, RAGFlow, OmniParser와 같은 주요 프로젝트에 깊이 통합된 PaddleOCR은 AI 시대에 지능형 문서 애플리케이션을 구축하는 개발자들을 위한 최고의 솔루션이 되었습니다.

게시물 PaddleOCRKADH / 한국디지털인문학협의회에 처음 등장했습니다.

DeepSeek-OCR: Contexts Optical Compression

作者Baro
2025年10月23日 19:24

https://github.com/deepseek-ai/DeepSeek-OCR

DeepSeek-OCR이란? (핵심 개념)

이름은 OCR이지만, 본질은 ‘문맥 광학 압축 (Contexts Optical Compression)’ 기술입니다.

  • 기존 문제: LLM(대형 언어 모델)은 입력 텍스트가 길어지면 (Long Context) 처리 비용이 기하급수적으로 늘어나고 성능이 저하됩니다.
  • 해결 아이디어: 텍스트가 10,000자인 문서를 LLM에게 ‘텍스트 토큰’ 10,000개로 주는 대신, 이 문서를 고해상도 ‘이미지’로 스캔해서 훨씬 적은 수의 ‘비전 토큰'(예: 1,000개)으로 압축해서 줍니다.
  • 결과: LLM은 10분의 1로 줄어든 토큰만 보고도, 원본 텍스트 내용을 거의 손실 없이(97% 정확도) 복원해냅니다.

2. 작동 방식 (두 단계)

DeepSeek-OCR은 두 가지 주요 부분으로 구성됩니다.

  1. DeepEncoder (압축기):
    • 문서 이미지를 입력받습니다.
    • 이 이미지를 분석하여 핵심 정보를 담은 **적은 수의 ‘비전 토큰’**으로 압축합니다.
  2. DeepSeek3B-MoE (해독기):
    • ‘압축기’가 만든 비전 토큰을 입력받습니다.
    • 이 토큰을 바탕으로 원본 텍스트 전체를 복원(OCR)해냅니다.

3. 단순 OCR과의 차이점

이 모델은 단순히 글자만 따는 기존 OCR과는 근본적으로 다릅니다.

  • 문맥/구조 이해: LLM(해독기)을 기반으로 하므로, 텍스트뿐만 아니라 표, 차트, 수식, 레이아웃까지 이해하고 구조화된 형태(예: 마크다운, HTML)로 변환할 수 있습니다.
  • 다국어 처리: 약 100개에 달하는 언어를 동시에 인식하고 처리합니다.
  • 높은 압축률: 10배 압축 비율에서도 97%의 정확도를 보여, 사실상 ‘무손실 압축’에 가깝게 작동합니다.

요약

DeepSeek-OCR은 “LLM의 긴 글 처리 문제를 ‘시각적 압축’이라는 새로운 방식으로 해결하려는 시도”이며, 그 첫 번째 적용 사례가 바로 고성능 OCR입니다.

바로: OCR을 구현 형태일뿐, 실제 목표는 텍스트 대상의 효율적 처리로 보이지만…. 테스트 목적으로 만들어진 OCR 만으로도 고전쪽에서는 충분히 유의미하게 사용 가능할듯 함. 상당히 괜찮은 결과로 보임. 기존 공개 OCR 모델을 같이 병렬로 활용하여 플랫폼 만들면….

게시물 DeepSeek-OCR: Contexts Optical CompressionKADH / 한국디지털인문학협의회에 처음 등장했습니다.

[Dataset/Model] KPoEM

作者김병준
2025年9月5日 11:25

KPoEM: 한국 현대시 감정 분류 데이터셋과 모델

한국 현대시의 섬세한 감정을 AI가 이해할 수 있을까요? 한국학중앙연구원 디지털인문학연구소에서 개발한 KPoEM(Korean Poetry Emotion Mapping) 데이터셋이 이 질문에 답을 제시합니다.

KPoEM은 김소월, 윤동주, 이상, 임화, 한용운 등 한국의 대표 시인 5인의 시작품 483편을 44개의 감정 범주로 세밀하게 분석한 최초의 한국시 감정 데이터셋입니다.

연구 책임자: 김병준 교수 (한국학중앙연구원 한국학대학원 인문정보학)

연구 보조원: 지해인(박사과정), 임이로(석사과정), 구슬(석사과정)

라벨러(Annotator): 정송이(박사과정), 윤종훈(석사졸업)

논문 정보

Lim, I., Ji, H., & Kim, B. (2025). Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling (No. arXiv:2509.03932). arXiv. https://doi.org/10.48550/arXiv.2509.03932

왜 KPoEM이 필요한가?

기존의 한국어 감정 분석 데이터셋인 KOTE(Korean Online That-gul Emotions)온라인 댓글 5만 건을 기반으로 구축되었습니다. KOTE는 일상적인 온라인 텍스트 분석에는 유용하지만, 문학 텍스트 특히 시의 감정을 분석하는 데는 근본적인 한계가 있었습니다:

KOTE의 한계
  • 언어 스타일: 인터넷 댓글의 직접적이고 단순한 표현 vs 시의 은유적이고 다층적인 표현
  • 감정 표현: 댓글의 즉각적인 감정 반응 vs 시의 절제되고 함축적인 정서
  • 문맥 이해: 댓글의 단편적 맥락 vs 시의 전체적 의미 구조와 상징

KPoEM은 이러한 한계를 극복하고자 시 텍스트에 특화된 최초의 한국어 감정 데이터셋으로 개발되었습니다.

데이터셋 구성

KPoEM은 총 7,662개의 레이블링 데이터로 구성되어 있습니다:

  • 행 단위(line-level): 7,007개의 시행별 감정 레이블
  • 작품 단위(work-level): 615개의 시 전체 감정 레이블
  • 다중 레이블: 각 텍스트당 최대 10개의 감정 동시 표현 가능
  • 5명의 전문 주석자: 한국문학 및 디지털인문학 전공 연구자들의 독립적 레이블링
실제 데이터 구성 예시

다음은 윤동주의 “서시”에 대한 실제 KPoEM 데이터셋의 구조입니다:

CSV 형식의 원본 데이터
line_id,poem_id,text,sub_title,title,poet,annotator_01,annotator_02,annotator_03,annotator_04,annotator_05
1,1,죽는 날까지 하늘을 우러러,,서시,윤동주,비장함,비장함,"뿌듯함, 비장함","비장함, 뿌듯함, 감동/감탄","비장함, 서러움, 슬픔"
2,1,한 점 부끄럼이 없기를,,서시,윤동주,"부끄러움, 비장함","부끄러움, 비장함, 기대감, 불안/걱정, 서러움, 슬픔","깨달음, 비장함, 뿌듯함","비장함, 부끄러움, 기대감",비장함
3,1,잎새에 이는 바람에도,,서시,윤동주,"기대감, 신기함/관심","기대감, 불안/걱정, 비장함","슬픔, 서러움, 불안/걱정, 당황/난처","비장함, 슬픔","감동/감탄, 신기함/관심, 편안/쾌적, 기대감"
4,1,나는 괴로워했다.,,서시,윤동주,"절망, 슬픔, 패배/자기혐오","절망, 슬픔, 패배/자기혐오, 죄책감, 힘듦/지침, 비장함","당황/난처, 서러움, 죄책감, 패배/자기혐오","비장함, 슬픔, 패배/자기혐오, 절망, 힘듦/지침","슬픔, 서러움, 절망, 힘듦/지침, 패배/자기혐오"
주석자 간 감정 레이블링 분석

“나는 괴로워했다” (line_id: 4)에 대한 5명의 주석자 레이블링 분포:

감정선택한 주석자 수주석자
슬픔5명전원
패배/자기혐오5명전원
절망4명01, 02, 04, 05
힘듦/지침3명02, 04, 05
비장함2명02, 04
서러움2명03, 05
죄책감2명02, 03
당황/난처1명03

이처럼 주석자들 간의 합의도가 높은 감정(슬픔, 패배/자기혐오)과 개인차가 있는 감정(당황/난처)을 구분할 수 있습니다.

인터넷 댓글 학습 모델 vs 시 텍스트 학습 모델

일반 텍스트(인터넷 댓글)로 학습한 KOTE 모델은 시의 감정을 제대로 파악하지 못합니다. 다음은 정지용의 “향수”를 분석한 실제 사례입니다:

정지용 “향수” 분석 비교

분석 대상 시구:

흙에서 자란 내 마음
파아란 하늘 빛이 그립어
함부로 쏜 화살을 찾으려
풀섶 이슬에 함추름 휘적시든 곳
― 그 곳이 참하 꿈엔들 잊힐 리야.
KOTE 모델 (인터넷 댓글 학습)
주요 감정:
- 슬픔: 0.76
- 불쌍함/연민: 0.56
- 안타까움/실망: 0.51
- 없음(NO EMOTION): 0.42  ← 시에 감정이 없다고 판단
- 불안/걱정: 0.41
- 힘듦/지침: 0.39

문제점: 
- 감정 종류가 제한적 (6개)
- "감정 없음"이라는 부적절한 판단
- 향수와 그리움의 정서 포착 실패
- 댓글의 직접적 표현에만 익숙해 은유를 이해 못함
KPoEM 모델 (시 텍스트 학습)
주요 감정:
- 슬픔: 0.97
- 서러움: 0.94
- 안타까움/실망: 0.90
- 불안/걱정: 0.79
- 불쌍함/연민: 0.76
- 힘듦/지침: 0.72
- 아껴주는: 0.48
- 절망: 0.46
- 기대감: 0.36
- 신기함/관심: 0.32
- 깨달음: 0.32

장점:
- 다층적 감정 포착 (11개)
- 고향에 대한 그리움과 상실감 정확히 인식
- 한국적 정서 '서러움' 높은 점수
- 시적 은유와 상징을 통한 감정 이해
한강 “효에게. 2002. 겨울” 분석 비교

분석 대상 시구:

저 번쩍이는 거대한 흐름과
시간과 성장(成長),
집요하게 사라지고
새로 태어나는 것들 앞에
우리가 함께 있었다는 걸
KOTE 모델의 부적절한 감정 분류
  • 절망(0.35), 힘듦/지침(0.40) 같은 부정적 감정 과다
  • 댓글에서 학습한 표면적 부정어에만 반응
  • 시의 성찰적이고 초월적인 정서를 놓침
KPoEM 모델의 정확한 감정 분류
  • 비장함(0.91), 깨달음(0.91), 기대감(0.77)
  • 안심/신뢰(0.40), 감동/감탄(0.40) 등 긍정적 감정도 포착
  • 시간의 흐름 속 인간 관계의 의미를 정확히 해석
모델 성능
모델F1-microF1-macroAccuracy특징
KcELECTRA (KOTE only)0.430.340.77인터넷 댓글 학습, 시 이해 부족
KcELECTRA (KPoEM only)0.590.450.79시 전문 학습
KcELECTRA (KOTE → KPoEM)0.600.490.79최고 성능
44개 감정 카테고리

KPoEM은 한국어 정서 표현의 특수성을 반영한 44개 감정을 포함합니다:

  • 부정적 감정(25개): 경악, 공포/무서움, 슬픔, 서러움, 불안/걱정, 절망, 패배/자기혐오, 죄책감 등
  • 긍정적 감정(14개): 감동/감탄, 고마움, 기쁨, 행복, 편안/쾌적, 뿌듯함 등
  • 중립적 감정(4개): 깨달음, 놀람, 비장함, 우쭐댐/무시함
  • 기타(1개): 없음(NO EMOTION)

특히 ‘서러움’, ‘비장함’ 같은 한국 문화 특유의 감정 표현이 포함되어 있다는 점이 특징입니다.

데이터셋 및 모델 다운로드

KPoEM 데이터셋과 모델은 다음 플랫폼에서 이용 가능합니다:

모델 활용 예시
# 시 텍스트 감정 분석 예시
example = '''
나의 생은 미친듯이 사랑을 찾아 헤매었으나
단 한번도 스스로를 사랑하지 않았노라
'''

# threshold=0.3 설정 시, 확률값이 0.3 이상인 감정만 반환
result = kpoem_model.analyze(example, threshold=0.3)

분석 결과:

[('슬픔', 0.941),
 ('서러움', 0.924),
 ('안타까움/실망', 0.924),
 ('깨달음', 0.717),
 ('불안/걱정', 0.618),
 ('힘듦/지침', 0.601),
 ('불쌍함/연민', 0.590),
 ('패배/자기혐오', 0.552),
 ('비장함', 0.517),
 ('당황/난처', 0.481),
 ('부담/안_내킴', 0.455),
 ('절망', 0.448),
 ('불평/불만', 0.388),
 ('한심함', 0.348),
 ('아껴주는', 0.306),
 ('부끄러움', 0.300)]

위 결과는 자기 사랑의 부재에 대한 성찰을 담은 시구에서 슬픔, 서러움, 안타까움과 같은 주요 감정과 함께 깨달음이라는 성찰적 감정까지 포착하고 있습니다.

활용 사례 및 교육 콘텐츠

KPoEM 데이터셋과 모델은 다음과 같은 분야에서 활용될 수 있습니다:

  1. 문학 연구: 시인별, 시대별 감정 표현 패턴 분석
  2. 교육: AI 기반 시 창작 교육 및 감정 이해 학습
  3. 디지털 인문학: 대규모 문학 텍스트의 정량적 감정 분석
  4. 창작 지원: 특정 감정을 표현하는 시 구절 생성 및 추천
  5. 문화 연구: 한국 특유의 감정 표현 연구 (서러움, 비장함 등)

관련 교육 자료

KPoEM을 활용한 디지털 인문학 교육 콘텐츠가 제공되고 있습니다:

고급 자연어 처리 활용 – 디지털인문학 시리즈
이 교육 자료에서는 KPoEM 데이터셋을 활용한 실습 예제와 함께 문학 텍스트 감정 분석의 이론과 실제를 학습할 수 있습니다.

마치며

KPoEM은 한국 현대시의 감정을 체계적으로 분석할 수 있는 첫 번째 공개 데이터셋으로, AI와 문학의 융합 연구에 새로운 가능성을 열어줍니다. 인터넷 댓글로 학습한 기존 모델이 포착하지 못하는 시의 미묘한 감정과 한국적 정서를 정확히 인식할 수 있게 되었습니다.

연구자들과 개발자들이 이 데이터셋을 활용하여 더 많은 창의적인 프로젝트를 진행하기를 바랍니다. KPoEM을 통해 한국 현대시의 아름다움과 정서적 깊이를 디지털 시대에 새롭게 조명할 수 있기를 기대합니다.


이 연구는 2025년 한국학중앙연구원 연구교육연계과제의 지원을 받아 제작되었습니다. (AKSR2025-RE04 고급 자연어 처리 및 대규모 언어 모델 기반 디지털 한국학 연구 및 교육 방법론 개발)

게시물 [Dataset/Model] KPoEMKADH / 한국디지털인문학협의회에 처음 등장했습니다.

Aeneas(아이네이아스): 고대 로마 문자 복원 AI 모델

作者Baro
2025年7月28日 00:37

https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past

Google DeepMind의 고대 로마 문자 복원 AI 모델인 Aeneas(아이네이아스)입니다.

Aeneas는 고대 비문을 해석하고, 속성을 부여하며, 파편화된 텍스트를 복원하는 데 특화된 최초의 AI 모델입니다. 이 모델은 로마 시대 비문의 복잡하고 시간이 많이 소요되는 작업을 가속화하여, 수천 개의 라틴어 비문에서 텍스트 및 문맥적 유사성을 몇 초 만에 검색할 수 있도록 설계되었습니다. 텍스트와 이미지 정보를 모두 분석하여 텍스트의 지리적 출처를 결정하고, 누락된 텍스트의 간격을 복원할 수 있습니다.

Aeneas는 University of Nottingham, Warwick, Oxford, Athens University of Economics and Business (AUEB)의 연구원들과 공동 개발되었으며, 생성형 AI가 역사가들이 대규모로 유사성을 식별하고 해석하는 데 어떻게 도움이 될 수 있는지 탐구하는 광범위한 노력의 일환입니다. 이 모델은 이전 모델인 Ithaca를 기반으로 구축되었으며, 역사가들이 텍스트를 해석하고 맥락화하며, 고립된 단편에 의미를 부여하고, 고대 역사에 대한 이해를 높이는 데 기여합니다.

Aeneas의 대화형 버전은 Predicting the Past 웹사이트에서 연구원, 학생, 교육자 및 박물관 전문가에게 무료로 제공되며, 추가 연구를 위해 코드와 데이터 세트도 오픈 소스로 공개되었습니다.

원본데이터셋:

EDR – Epigraphic Database Roma EpiDoc files https://zenodo.org/records/3575495

Epigraphic Database Heidelberg EpiDoc files https://zenodo.org/records/3575155

EDCS https://zenodo.org/records/7072337

데이터셋 및 코드

Contextualising ancient texts with generative neural networks https://github.com/google-deepmind/predictingthepast

바로:

역사 기록물에는 수 많은 “공백”이 존재한다. 그런 “공백” 중에서 텍스트의 식별불가 혹은 식별추정 문자를 탐색하는 것은 가장 기본 중에 하나이다. 딥러닝으로 당장은 돈이 되지 않는 (하지만 머리를 잘 굴리면 사실 돈이 될 수 있는) 연구를 진행하는 Google DeepMind에 박수를 보낸다.

한국 사료에도 수 많은 “공백”이 존재하며, “좋은 기계가독형데이터만 있으면” 해당 코드를 적용해 볼 수 있다. 다만, 현재는 해당 코드를 돌릴 수 있는 “좋은 기계가독형데이터”가 없고, “인간가독형데이터”만 존재한다. 그런데 좋은 기계가독형데이터를 만드는 것은 결코 쉽지 않다..ㅠㅠ

검열쪽으로 적용하기 딱인데….그 데이터를 만들 엄두가….

KT 믿:음 Mi:dm 2.0

作者Baro
2025年7月10日 15:46


https://huggingface.co/K-intelligence

이 공간은 KT의 대규모 언어 모델인 Mi:dm을 소개합니다. Mi:dm 언어 모델군에 대한 포괄적인 정보, 해당 모델 적용을 위해 설계된 도구, 그리고 기술 문서를 제공합니다.

KT의 한국 중심 AI 모델 – Mi:dm 2.0

https://huggingface.co/K-intelligence/Midm-2.0-Base-Instruct

https://huggingface.co/K-intelligence/Midm-2.0-Mini-Instruct

KT 공식 믿음 2.0 소개 페이지

https://enterprise.kt.com/pd/P_PD_NE_00_316.do

바로:

데이터 소스는 한국의 교육용 도서, 문학 작품 등의 출판물과 법류 및 특허 문서, 각종 사전 등 공개된 데이터 사용 추정

한국어에 특화된 자체 개발 토크나이저(Tokenizer)를 사용했다고 함.

Base는 115억 파라미터 / 미니는 23억 파라미터 라고 함.

BioCRM: 인물 생애 정보 기술을 위한 데이터 모델

作者Baro
2025年5月21日 20:31

Bio CRM: A Data Model for Representing Biographical Information for Prosopography 

http://ldf.fi/schema/bioc/

이 문서는 개인의 생애 정보를 체계적으로 기술하기 위한 데이터 모델인 BioCRM에 대해 설명하고 있습니다. BioCRM은 특히 프로소포그래피(prosopography, 인물군 연구) 분야에서 활용될 수 있도록 설계되었습니다.

BioCRM의 주요 목표 및 활용 사례:

  • 목표: 다양한 출처의 전기 정보를 조화시키고 상호 연결할 수 있는 의미론적 데이터 모델을 제공하는 것입니다. 이를 통해 인물, 개인 관계, 직업, 다양한 역할을 가진 참여자가 있는 사건 등 기본적인 인물 데이터를 표현할 수 있습니다.
  • 활용 사례:
    • 정보 검색: 특정 특징을 공유하는 인물 집단을 찾아낼 수 있습니다. 예를 들어, 1800년에서 1850년 사이에 영국에서 태어나 특정 직업을 가졌던 남성들을 찾는 경우입니다. 이러한 집단은 추가 분석이나 다른 집단과의 비교 대상이 될 수 있습니다.
    • 네트워크 분석: 특정 기준에 따라 인물 네트워크를 찾아내고, 이를 네트워크 분석 도구나 시각화를 통해 분석할 수 있습니다.
    • 지식 발견: 데이터 내에서 이전에 알려지지 않았던 특정 관심 특징을 공유하는 숨겨진 인물 집단을 자동으로 식별할 수 있습니다.
    • 동적 분석: 그룹의 구조와 변화하는 구성, 그리고 개인이나 하위 그룹의 변화하는 역할을 분석할 수 있습니다.

설계 원칙:

  • BioCRM은 생애 이야기를 사건 기반 접근 방식으로 모델링합니다. 즉, 개인의 삶은 출생부터 사망까지 시공간적으로 연결된 사건들의 연속으로 간주됩니다. 출생 전이나 사후 사건도 포함될 수 있습니다.
  • 혼동을 피하기 위해 BioCRM은 개인의 속성, 인물 간의 관계, 그리고 인물이 다양한 역할로 참여하는 사건을 명확하게 구분합니다.
    • 속성: 시간과 공간에 독립적으로 개인을 특징짓는다고 가정하는 속성 (예: 직업)
    • 관계: 인물들 사이에 설정되며 시간과 공간에 독립적으로 인물들을 특징짓는다고 가정하는 관계 (예: 아버지-자식 관계)
    • 역할: 인물이 사건에 참여하는 방식을 표현 (예: 세례 후보자)
    • 사건: 시간과 공간에서 발생하며 다양한 역할의 참여자를 포함
  • 이 모델은 CIDOC CRM의 도메인 특정 확장으로, 전기 데이터뿐만 아니라 다른 문화유산(CH) 데이터에도 적용 가능합니다.
  • 지속적인 단일 역할(unary roles), 지속적인 이진 관계(binary relationships), 그리고 참여자들이 역할 개념 계층으로 모델링된 다양한 역할을 맡을 수 있는 지속 사건(perduring events)을 구분합니다.

핵심 클래스:

BioCRM 모델의 핵심 클래스는 다음과 같은 계층 구조를 가집니다: Entity, Actor (Person, Group), Actor_Appellation, Document, Entity_Role (Actor_Role, Thing_Role), Event, Place, Thing, Time-Span. 이들 간의 관계는 다이어그램으로 표현되어 있습니다.

주요 정보 표현 방식:

  • 인물 (Person): bioc:Person (CIDOC CRM의 E21_Person 하위 클래스)의 인스턴스로 표현됩니다. 핵심 데이터로는 호칭(이름, 식별자), 출생 및 사망 시점과 장소, 그리고 단일 역할(성별, 국적, 직업), 관계(가족, 사회, 그룹), 참여 사건 등이 있습니다.
  • 호칭 (Appellations): 한 인물은 여러 호칭을 가질 수 있으며 (예: 필명, 별명), 이는 bioc:Actor_Appellation의 하위 클래스로 표현됩니다. rdfs:label 속성으로 이름의 문자열 형식을 제공하고, 언어 태그를 사용해 다른 언어로의 음차를 나타낼 수 있습니다. 결혼 등으로 인해 이름이 유효한 시기가 다를 수 있으며, 이는 cidoc:P4_has_time-span을 사용해 표현합니다.
  • 출생 및 사망 (Birth and Death): 출생 및 사망 사건(cidoc:E67_Birth, cidoc:E69_Death)으로 표현되며, 시간과 장소 정보를 포함할 수 있습니다. 출생 사건에는 부모 정보도 포함될 수 있습니다.
  • 단일 역할 (Unary Roles): 성별, 국적, 직업 등은 bioc:bearer_of 속성을 사용하여 인물과 단일 역할을 연결하여 표현합니다. 이러한 역할은 시간과 공간적 맥락을 갖는 사건(예: 고용)을 통해 구체화될 수 있습니다. 예를 들어, 존 F. 케네디는 1961-1963년에 미국에서 대통령 역할을 수행했습니다.
    • 성별: bioc:has_gender 속성 사용 (예: 남성, 여성)
    • 국적: bioc:has_nationality 속성 사용 (예: 영국인, 핀란드인)
    • 직업: bioc:has_profession 속성 사용 (예: 철학자, 상인)
  • 관계 (Relationships): 가족 관계(어머니, 사촌 등)나 사회적 관계(스승-제자, 아는 사이 등)와 같은 인물 간의 고유한 관계도 역할 기반 패턴을 사용합니다. 행위자(개인 또는 그룹)를 bioc:has_relation의 하위 속성 중 하나를 사용하여 다른 행위자의 역할에 연결함으로써 관계를 표현합니다. 단일 역할과 마찬가지로 관계도 사건을 사용하여 시간 및 공간 정보로 구체화될 수 있습니다. 예를 들어, 존 F. 케네디는 1953-1963년에 재클린 케네디의 배우자였습니다.
  • 사건 (Events): 생애의 개별 사건들은 bioc:Event (CIDOC CRM의 E5_Event 하위 클래스)의 하위 클래스로 표현됩니다. 사건은 시간(cidoc:P4_has_time-span), 장소(cidoc:P7_took_place_at), 참여한 행위자(cidoc:P11_had_participant), 관련된 다른 자원(cidoc:P12_occurred_in_the_presence_of) 등의 관점에서 기술됩니다. 참여 행위자 및 기타 자원의 값은 역할 클래스의 인스턴스입니다. 이를 통해 한 사람이 여러 사건에 서로 다른 역할로 참여할 수 있으며, 각 역할은 추가 속성으로 구체화될 수 있습니다. 예를 들어, 특정 강의 사건은 강사 역할의 인물, 학생 역할의 인물, 시간, 장소 정보 등을 포함할 수 있습니다. 사건은 단일 역할(예: 직업)이나 가족 관계를 더욱 구체화하는 데에도 사용될 수 있습니다.

계층 구조:

  • 사건 계층 (Event Hierarchy): 사건을 나타내는 클래스들은 계층 구조로 구성됩니다 (예: bioc:Event 아래에 :Ecclesiastical_Event, :Educational_Event 등). 예를 들어, :Ecclesiastical_Event:Baptism(세례), :Confirmation(견진) 등으로 세분화될 수 있으며, 각 사건 유형에는 관련된 역할들이 정의됩니다 (예: 세례의 경우 주례자, 세례 후보자, 대부, 대모 등).
  • 역할 계층 (Role Hierarchy): 사건에 참여하는 행위자의 역할을 나타내는 클래스들도 계층 구조를 가집니다 (예: bioc:Entity_Role 아래에 bioc:Actor_Role (다시 bioc:Unary_Role, bioc:Binary_Relationship_Role, bioc:Event_Role로 나뉨), bioc:Thing_Role). 각 사건 클래스에는 해당 사건에 참여할 수 있는 역할들을 제한하기 위해 OWL의 owl:allValuesFrom 제한을 사용하여 허용된 역할 클래스를 지정하는 것이 권장됩니다. 예를 들어, :Baptism 사건에는 :Baptism_Actor_Role이라는 클래스에 속하는 역할들만 참여할 수 있도록 정의할 수 있습니다. 이러한 역할 계층은 사건 간 역할 공유를 용이하게 하고 역할 구조 변경을 쉽게 만듭니다.

이 모델은 데이터 주석 작성자가 올바른 역할만 사용하도록 안내하고, 질의 시 역할에 있는 자원을 찾는 데 새로운 역할 클래스를 사용할 수 있게 합니다. bioc:inheres_in 속성은 시간과 무관한 역할(단일 역할 및 한정자 없는 이진 관계)과 시간적 역할(사건을 사용하여 한정됨) 모두를 표현하는 데 사용되며, 이는 모델의 단순성을 위한 의도적인 결정입니다.

일본 고문 AI_KARAMARU(からまる)/Soan(そあん)

作者김병준
2025年4月2日 09:13

일본 Center for Open Data in the Humanities와 Sakana AI가 합작한 AI 모델

AI 모델 “카라마루(からまる)” 한국어 요약 (Gemini 2.5 Pro 활용)

url: https://sakana.ai/karamaru/ 

Sakana AI가 개발한 **카라마루(からまる)**는 에도 시대(江戸時代)의 고문(古文) 스타일로 대화할 수 있는 챗봇입니다.

주요 특징:

  1. 에도 시대 스타일 대화: 현대 일본어로 질문하면, 에도 시대의 세계관과 당시의 고문 스타일 텍스트로 답변합니다.
  2. 몰입감 높은 경험: 단순히 문체만 흉내 내는 것이 아니라, 내용 자체에 에도 시대의 세계관이 반영되어 있어 과거 문화에 대한 몰입감 높은 대화를 즐길 수 있습니다.
  3. 학습 데이터:
    • 에도 시대 서적 등 수천 점 이상의 자료를 바탕으로 약 2,500만 자 규모의 ‘에도 텍스트 데이터셋’을 구축했습니다.
    • 이 데이터셋은 인간이 직접 판독(翻刻)한 약 1,300만 자와 AI 흘림체 OCR(AIくずし字OCR)로 판독한 약 1,200만 자로 구성됩니다.
    • 기존 대규모 언어 모델(LLM)에 이 데이터셋을 추가 학습(継続学習)시키는 방식을 사용했습니다. (베이스 모델: Llama-3-ELYZA-JP-8B)
  4. 독창성:
    • 기존 LLM에 단순히 “에도 시대 스타일로 답해줘”라고 요청하는 것과 달리, 카라마루는 학습을 통해 내용과 형식 모두에서 일관된 에도 시대 스타일을 구현합니다.
    • 에도 시대에는 없었던 개념(예: 스마트폰)에 대해 질문해도, 당시의 어휘를 조합하여 설명하려고 시도하며 독특한 표현을 생성합니다.
  5. 이름 유래: 에도 시대의 유명 출판인 츠타야 주자부로(蔦屋重三郎)가 희작(戯作)을 쓸 때 사용했던 필명 ‘츠타노카라마루(蔦唐丸)’에서 따왔습니다. 또한 LLM이 수많은 단어와 개념이 복잡하게 ‘얽혀(絡まる, 카라마루)’ 학습됨을 의미하기도 합니다.
  6. 활용 목적 및 공개:
    • 연구 및 교육 목적으로 개발되었습니다.
    • Hugging Face 사이트를 통해 모델과 데모가 공개되어 있어 누구나 사용해 볼 수 있습니다.
    • 에도 시대 문화 연구(텍스트 검색, 번역, 분류 등)나 역사 교육 자료로 활용될 잠재력이 있습니다.

기대 효과:

카라마루는 현대인이 과거의 문화를 더 가깝게 느끼고 이해할 수 있도록 돕는 도구로서, 연구와 교육 분야에 널리 활용될 것으로 기대됩니다. AI만의 기능을 통해 시간을 초월하여 과거 문화 유산에 대한 접근성을 높이는 데 기여할 것입니다.


고문 흘림체 이미지 생성 AI, Soan(そあん)

https://codh.rois.ac.jp/soan

Ollama: 로컬에서 무료로 LLM 모델 사용하기

作者Baro
2025年1月31日 19:01

Ollama는 대규모 언어 모델(LLM)을 로컬에서 실행할 수 있도록 돕는 도구이며, 이 라이브러리는 Ollama와 함께 사용할 수 있는 다양한 모델들을 모아 놓은 저장소라고 할 수 있습니다.

쉽게 말해, Ollama는 거대한 뇌를 내 컴퓨터에서 직접 사용할 수 있게 해주는 도구이고, Ollama.com/library 는 그 뇌를 업그레이드하거나, 다른 종류의 뇌로 바꿔 끼울 수 있도록 다양한 뇌 모델들을 제공하는 곳이라고 생각하시면 됩니다.

Ollama.com/library 제공하는 정보와 기능은 다음과 같습니다.

  • 다양한 모델: Mistral, Llama 2, Code Llama, Orca Mini, Vicuna, WizardLM 등, 다양한 목적과 성능을 가진 모델들이 등록되어 있습니다. 각 모델은 특화된 분야나 작업에 따라 최적의 성능을 발휘합니다. 예를 들어, Mistral은 일반적인 대화, Llama 2는 창의적인 글쓰기, Code Llama는 코드 생성, Orca Mini는 자원이 제한된 환경, Vicuna는 고품질 대화, WizardLM은 지시 수행에 강점이 있습니다.
  • 모델 정보: 각 모델에 대한 설명, 크기, 파라미터 수, 다운로드 수, 성능 지표 등의 정보를 제공합니다. 이러한 정보를 통해 사용자는 자신의 필요와 환경에 맞는 모델을 선택할 수 있습니다.
  • 모델 사용법: 각 모델을 Ollama에서 어떻게 다운로드하고 실행하는지에 대한 가이드를 제공합니다. ollama run [모델 이름]과 같은 간단한 명령어를 통해 쉽게 모델을 실행할 수 있습니다.
  • 검색 및 필터링: 원하는 모델을 쉽게 찾을 수 있도록 검색 및 필터링 기능을 제공합니다. 모델 이름, 크기, 태그 등을 기준으로 검색할 수 있습니다.
  • 커뮤니티 참여: 사용자들이 새로운 모델을 제안하거나 기존 모델에 대한 피드백을 제공할 수 있는 공간을 제공합니다.

출처: “”https://ollama.com/library” 에 대한 설명”. Gemini Advanced 2.0 Experimental Advanced. 2025.01.31.

바로: 2025.01.31. 스샷이라서 deepseek-r1이 1등!

ModernBERT

作者Baro
2024年12月23日 13:16

https://huggingface.co/blog/modernbert

https://huggingface.co/answerdotai

https://github.com/AnswerDotAI

https://www.answer.ai

ModernBERT: BERT를 넘어, 효율성과 성능을 모두 잡다! (블로그 소개글)

안녕하세요, 여러분! 딥러닝, 특히 자연어 처리(NLP) 분야에 관심 있는 분들이라면 “BERT”라는 이름을 한 번쯤은 들어보셨을 겁니다. 2018년에 등장한 BERT는 트랜스포머(Transformer) 기반 모델로, 뛰어난 성능을 보여주며 NLP 분야에 혁명을 가져왔죠. 하지만, BERT는 거대한 모델 크기와 높은 컴퓨팅 자원으로 인해 실무 적용에 어려움을 겪기도 했습니다.

오늘 소개해드릴 **”ModernBERT”**는 이러한 BERT의 한계를 극복하고, 효율성과 성능을 모두 잡은 최신 NLP 모델입니다. 마치 최신 스마트폰처럼, 더욱 빠르고 강력해진 ModernBERT! 지금부터 ModernBERT의 매력 속으로 함께 빠져봅시다!

1. ModernBERT, 무엇이 달라졌을까요? (기존 BERT와의 비교)

ModernBERT는 기존 BERT의 아키텍처를 기반으로 여러 가지 혁신적인 기술들을 적용하여 성능과 효율성을 크게 향상시켰습니다. 주요 변경 사항은 다음과 같습니다.

특징BERTModernBERT
모델 크기크고 무거움 (110M/340M 파라미터)경량화 & 모듈화 (선택적 크기 조정 가능)
학습 속도느림빠름 (최대 2배 이상)
추론 속도느림빠름 (최대 3배 이상)
메모리 사용량높음낮음 (최대 50% 감소)
하드웨어 의존도높음 (고성능 GPU 필요)낮음 (CPU에서도 효율적 실행 가능)
특화된 아키텍처범용적다양한 태스크에 최적화된 모듈 제공
학습 데이터대규모 일반 데이터일반 데이터 + 도메인 특화 데이터 활용
토큰화 방식WordPieceSentencePiece 및 BPE 등 유연한 토큰화 지원

Sheets로 내보내기

핵심은 “효율성”입니다! ModernBERT는 모델 경량화, 최적화된 학습/추론 알고리즘, 효율적인 하드웨어 활용을 통해 BERT보다 훨씬 빠르고 가볍게 동작합니다.

2. ModernBERT의 기술적 핵심, 자세히 살펴보기

ModernBERT의 놀라운 성능 향상은 다음과 같은 핵심 기술들 덕분에 가능했습니다.

  • 지식 증류 (Knowledge Distillation): 큰 “선생님” 모델 (Teacher Model)의 지식을 작은 “학생” 모델 (Student Model)에게 전달하여, 작은 모델도 큰 모델과 유사한 성능을 내도록 학습합니다. ModernBERT는 BERT와 같은 대형 모델에서 지식을 추출하여 효율적인 작은 모델을 만듭니다.
  • 양자화 (Quantization): 모델의 가중치와 활성화 값을 낮은 정밀도 (예: 32비트 -> 8비트)로 표현하여 모델 크기를 줄이고 계산 속도를 향상시킵니다. ModernBERT는 학습 후 양자화(Post-Training Quantization)와 양자화 인지 학습(Quantization-Aware Training)을 모두 지원하여 성능 저하를 최소화합니다.
  • 가지치기 (Pruning): 모델에서 중요도가 낮은 연결(connections)을 제거하여 모델을 경량화합니다. ModernBERT는 구조적 가지치기(Structured Pruning)를 통해 추론 속도를 크게 향상시킵니다.
  • 모듈화 (Modularization): ModernBERT는 재사용 가능한 모듈로 구성되어 있어, 특정 태스크에 필요한 모듈만 선택적으로 사용하여 모델을 구성할 수 있습니다. 이를 통해 모델 크기를 더욱 줄이고, 태스크별 최적화된 성능을 얻을 수 있습니다.
  • 개선된 학습 기법: ModernBERT는 더 나은 옵티마이저(LAMB, AdamW 등), 학습률 스케줄링(Learning Rate Scheduling), 데이터 증강(Data Augmentation) 등을 활용하여 학습 속도와 성능을 개선했습니다.
  • 효율적인 토큰화: SentencePiece와 Byte Pair Encoding (BPE) 와 같은 최신 토큰화 기법을 사용하여 어휘 크기를 줄이고 희귀 단어 처리 능력을 향상시켰습니다.

3. ModernBERT는 인코더 전용 모델?

ModernBERT는 인코더 전용 모델로 설계되었습니다. 즉, BERT와 마찬가지로 입력 텍스트를 이해하고 문맥을 파악하는 데 강점을 가지고 있습니다. 이는 다음과 같은 장점을 제공합니다.

  • 다양한 다운스트림 태스크에 활용 가능: ModernBERT의 인코더는 문장 분류, 질의응답, 개체명 인식, 기계 독해 등 다양한 NLP 태스크에 적용될 수 있습니다.
  • 전이 학습 (Transfer Learning)에 용이: 대규모 데이터로 사전 학습된 ModernBERT의 인코더는 특정 태스크에 맞게 미세 조정(Fine-tuning)하여 적은 양의 데이터로도 높은 성능을 달성할 수 있습니다.
  • 효율적인 특징 추출 (Feature Extraction): ModernBERT의 인코더는 입력 텍스트에서 고품질의 특징 벡터를 추출할 수 있으며, 이 특징 벡터는 다른 기계 학습 모델의 입력으로 사용될 수 있습니다.

4. ModernBERT, 미래 NLP의 주인공이 될까요?

ModernBERT는 BERT의 한계를 극복하고, 실용성성능을 모두 갖춘 차세대 NLP 모델입니다. 경량화, 모듈화, 최적화된 알고리즘을 통해 더 빠르고, 더 가볍고, 더 효율적으로 동작합니다.

특히, ModernBERT는 다음과 같은 분야에서 큰 활약을 할 것으로 기대됩니다.

  • 모바일 및 임베디드 기기에서의 NLP: 제한된 컴퓨팅 자원을 가진 환경에서도 효율적으로 동작하여, 스마트폰, IoT 기기 등에서 자연어 처리 기능을 제공할 수 있습니다.
  • 실시간 NLP 서비스: 빠른 추론 속도를 바탕으로 실시간 번역, 챗봇, 감성 분석 등의 서비스를 제공할 수 있습니다.
  • 자원 제약적인 환경에서의 NLP 연구: ModernBERT는 학계나 스타트업과 같이 컴퓨팅 자원이 제한적인 환경에서도 고성능 NLP 모델을 연구하고 개발할 수 있는 길을 열어줍니다.

출처: Gemini Advanced 2.0 Experimental Advanced. “”ModernBERT”에 대해서, 기술적인 내용을 포함하고, 기존 BERT와의 비교 및 인코더 전용 모델의 관점도 포함하여, 블로그 소개글 작성해.” 2024.12.23.

바로: 기존에 있는 텍스트를 주로 연구하는 입장에서는 NLU에 적합한 인코딩 모델이 더 좋음. 근데 다국어 지원하는지? 정말 괜찮은지…모르겠…. 언젠가… 12월의 질주가 끝나면… (근데 1월에도 12월만큼은 아니지만, 질주가 예정되어 있…)

❌