[2025-1] 김민정 - LargeConceptModels: Language Modeling in a Sentence Representation Space

2412.08821v2.pdf

1.82MB

1. Introduction

LCM의 현황

LLM :

NLP의 표준 기술로 자리잡았으나, 토큰 수준에서 동작하며 인간처럼 다층적인 추론 및 창의적 콘텐츠 생성에는 한계 有

암묵적으로 계층적 구조를 포함하고 있지만, 명백한 계층적 구조를 가진 모델이 일관된 장문의 출력을 만드는데 적합

인간은 단어 수준이 아닌, 개념적이고 추상적인 레벨에서 정보를 처리하고 생성하기에 명백한 계층적 구조를 가진 모델 필요

LCM의 목표

LCM(Large Concept Models)은 "개념"을 중심으로 작동하며, 언어와 모달리티에 독립적인 구조를 가짐

SONAR라는 문장 임베딩 공간을 활용하여 200개 언어의 텍스트와 76개 언어의 음성을 지원

기존 LLM과의 차별점

현재 LLM들은 단순히 다음 토큰을 예측하지만, LCM은 계층적 정보 구조를 명시적으로 모델링

ex) 연구 발표를 준비할 때 주요 아이디어를 먼저 정리한 후 세부 내용을 추가하는 인간의 방식과 유사한 접근

2. Main Design Principles

SONAR 임베딩 공간

SONAR는 문장 수준의 고도로 추상적인 의미 표현을 지원

특징

200개의 언어를 지원하며, 텍스트와 음성을 포함한 멀티모달 처리 가능.

번역, 잡음 제거, MSE 손실 최소화로 훈련됨.

76개 언어의 음성을 텍스트로 변환하거나, 영어 음성으로 출력 가능.

데이터 준비

긴 문서를 문장 단위로 분리하여 SONAR 임베딩으로 변환

문장 분리 도구

SpaCy: 고자원 언어에서 강점을 가짐.

SaT(Segment any Text): 구두점이 부족한 데이터에서도 정확한 분리가 가능.

SaT Capped: 문장 길이를 200자로 제한해 긴 문장에서 발생하는 문제를 완화.

LCM 변형

Base-LCM

MSE 손실을 최소화하도록 설계된 기본 모델.

SONAR 임베딩을 입력으로 받아 다음 문장의 임베딩을 예측.

Diffusion LCM

노이즈를 추가하여 점진적으로 다음 문장 임베딩을 생성.

One-Tower: 하나의 Transformer로 문맥과 노이즈를 함께 처리.

Two-Tower: 문맥과 노이즈를 별도의 Transformer로 분리하여 처리.

Quantized LCM

SONAR 임베딩을 Residual Vector Quantization(RVQ) 기법으로 이산적 단위로 변환.

이산적 데이터 생성에서 온도(temperature), top-k 샘플링 등 제어 가능.

3. Model Variants and Implementation

Base-LCM

기본 Transformer 아키텍처로 구성.

입력 문맥에서 다음 문장 임베딩을 예측하며, 학습 목표는 MSE 최소화.

Diffusion-Based LCM

One-Tower

입력 문맥과 노이즈를 함께 처리.

임베딩에 노이즈를 추가하고 이를 제거하며 다음 문장 임베딩을 생성.

Two-Tower

문맥을 인코딩하는 "Contextualizer"와 노이즈를 제거하는 "Denoiser"로 분리.

더 복잡한 구조로 문맥과 노이즈 처리를 독립적으로 수행.

Quantized LCM

벡터 양자화를 활용해 SONAR 임베딩을 이산적 형태로 변환.

SONAR 디코더를 재학습하여 양자화된 데이터에 적합하게 조정.

4. Ablation Studies

실험 환경

모델 크기: 약 1.6B 파라미터.

학습 데이터: Fineweb-edu 데이터셋.

평가 데이터셋: C4, ROC-stories, Wikipedia-en, Gutenberg.

성능 결과

Diffusion 기반 LCM이 전반적으로 높은 성능.

Quant-LCM은 더 간단한 구조를 제공하며 일부 작업에서 유리.

Base-LCM은 생성된 문장의 다양성이 낮고, 과도한 평균화 경향이 있음.

평가 지표

ℓ2 및 ℓ2-r

생성된 임베딩과 실제 임베딩 간 거리.

Contrastive Accuracy (CA)

생성된 임베딩이 실제 임베딩과 얼마나 유사한지를 측정.

Mutual Information (MI)

생성된 문장과 문맥 간의 상호 정보량 평가.

5. Instruction Tuning and Evaluation

학습 후 평가

Cosmopedia 데이터셋으로 Instruction-Tuning 수행

Diffusion LCM이 Quant-LCM보다 높은 ROUGE-L 및 Coherence 점수 기록

기존 LLM 대비 Diffusion LCM의 성능 차이는 적었으나 여전히 향상 가능성 보여줌

주요 결과

Diffusion 기반 모델이 더 높은 일관성과 품질 제공

Quantized LCM은 간단한 구조로 효율적인 학습과 추론 가능

6. Discussion

강점

다국어 제로샷 일반화와 장문 생성에서 우수한 성능

SONAR 임베딩을 활용한 멀티모달 처리 지원

한계

현재 모델은 텍스트와 음성에 초점이 맞춰져 있으며, 영상 등 추가 모달리티 확장이 필요

일부 작업에서 기존 LLM에 비해 낮은 성능

'Natural Language Processing' 카테고리의 다른 글

[2025-1] 박서형 - Swin-Unet: Unet-like Pure Transformer forMedical Image Segmentation (0)	2025.01.25
[2025-1] 황징아이 - LoRA : Low Rank Adaptation of Large Language Models (0)	2025.01.25
[2025-1] 박지원 - GPT-NeoX-20B: An Open-Source Autoregressive Language Model (1)	2025.01.23
[2025-1] 백승우 - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting (2)	2025.01.22
[2025-1] 정유림 - NV-Embed : Improved Techniques for Training Decoder Models for General Text Embeddings (0)	2025.01.10