본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1] 전연주 - LDM: High-Resolution Image Synthesis with Latent Diffusion Models

by YeonJuJeon 2025. 1. 17.

 논문 링크: 2112.10752


1. Abstract

LDM과 다른 Methods간 성능 비교

  • Diffusion Model (DM)은 고품질 이미지 생성에 탁월하지만, pixel space에서 직접 학습할 때 막대한 계산량과 시간이 소요됨
  • 본 논문에서는 먼저 강력한 Autoencoder를 사용해 이미지를 latent space로 압축한 뒤, 해당 공간에서 Diffusion Model을 학습하는 방안(Latent Diffusion Model, LDM)을 제안
  • 이 방식은 기존 pixel space 기반 Diffusion 대비 학습 비용과 추론(샘플 생성) 비용을 크게 절감함과 동시에, 다양한 조건(예: 텍스트, 세그멘테이션 맵 등)을 유연하게 적용할 수 있음
  • Inpainting, Super-Resolution, Text-to-Image Synthesis 등 여러 이미지 생성·복원 과업에서 경쟁력 있는 성능을 달성하며, 고해상도(1024×1024)까지 효율적으로 확장 가능함

2. Introduction

  • High-resolution Image Synthesis의 어려움
    •  
    • Image resolution이 높아질수록 pixel 수가 기하급수적으로 증가
    • Diffusion Model은 여러 단계에 걸쳐 노이즈를 제거(denoising)하면서 이미지를 생성하므로, pixel마다 연산해야 할 양이 커짐
    • 수백~수천 번의 step이 필요하기도 하며, 각 step이 전부 높은 차원의 연산으로 이어져 계산 비용이 폭증
  • Latent Space로의 전환
    • 오토인코더의 Encoder-Decoder 구조를 통해 이미지를 dimension reduction하여 latent vector 를 얻게 됨
    • 불필요한 고주파 성분이나 노이즈 정보가 제거되므로, Diffusion Model이 본질적인 시각·구조적 패턴에 집중해서 학습 가능
    • 이로써 pixel space 대비 훨씬 낮은 차원에서의 확산(denoising 과정)이 가능해져, 학습·추론 시 연산 비용 대폭 감소
  • 연구 목표
    • Autoencoder가 이미 수행한 perceptual compression을 기반으로, latent space에서 Diffusion Model을 학습해 고품질·고해상도 이미지를 저비용으로 생성
    • 크로스 어텐션(Cross-Attention) 등을 활용해 다양한 조건을 적용 가능하도록 확장

3. Method

3.1 Perceptual Image Compression

  • Autoencoder 구조
    • Encoder $E$: 원본 이미지 $\mathbf{x}$를 downsampling factor $f$만큼 축소하여 latent vector $\mathbf{z} = E(\mathbf{x})$로 변환
    • Decoder $D$: $\mathbf{z}$를 다시 upsampling하여 복원 이미지 $\hat{\mathbf{x}} = D(\mathbf{z})$ 생성
  • Regularization 방식
    • KL-regularization: VAE 유사 방식으로, 잠재 공간이 연속 분포를 유지하며, $\mathcal{N}(0,1)$과 가깝도록 가벼운 KL 벌점을 준 방식 → 재구성 성능이 크게 손상되지 않도록 조절
    • VQ-regularization: Decoder 내부에 Vector Quantization 레이어를 추가해, 이산(discrete) 코드북을 사용 → 표현력을 높이면서도 잡음 없는 공간을 확보
      • VQGAN과 유사하나, quantization layer가 Decoder에 흡수된 형태
  • Loss 구성
    • Perceptual Loss(VGG 기반) + Patch-based Adversarial Loss(이미지 로컬 영역의 사실감을 위한 GAN Loss)
    • 단순 L1·L2 Loss보다 시각적·구적 품질이 향상된 재구성을 달성
    • Patch-based Adversarial: 이미지를 여러 patch로 나눠서 진짜/가짜를 판별 → 지역적 리얼리즘 확보, 블러 현상 완화
    • 이 과정을 통해, 재구성($\hat{\mathbf{x}}$)이 원본( $\mathbf{x}$ )과 최대한 유사해지도록 학습

3.2 Latent Diffusion Models

  • 기본 아이디어
    • Diffusion Model은 데이터(이미지)에 점차 Gaussian Noise를 추가 한 뒤, 이를 역으로 제거(denoising)하는 과정을 학습
    • pixel space에서 직접 노이즈를 주고받으면 연산량이 매우 커짐 → 이를 latent space로 옮겨 계산량을 줄임
  • 식 (1): 기존 Diffusion Model의 손실$$\mathcal{L}_{\mathrm{DM}} = \mathbb{E}_{x,\; \epsilon \sim \mathcal{N}(0,1),\; t} \Bigl[ \|\epsilon - \epsilon_{\theta}( \mathbf{x}_t,\; t)\|_2^2 \Bigr].$$
    • $\mathbf{x}_t$: 입력 $\mathbf{x}$에 $t$-step만큼 노이즈가 추가된 상태
    • $\epsilon$: $\mathcal{N}(0,1)$에서 샘플링된 원본 노이즈
    • $\epsilon_{\theta}(\mathbf{x}_t,t)$: 모델이 예측한 노이즈
    • 이 기대값( $\mathbb{E}$)을 최소화함으로써, 노이즈를 성공적으로 제거하도록 학습
  • Autoencoder 활용
    • $\mathbf{z} = E(\mathbf{x})$: Autoencoder의 Encoder $E$를 통해 얻은 latent representation
    • pixel space 대신 latent space에서 forward process(점진적 노이즈 추가)를 정의
  • Loss Function (Reweighted Objective)
    1. Latent Space에서 노이즈화된 $\mathbf{z}_t$ 역으로 복원하는 것이 핵심
    2. $\mathbf{z}_t$는 $\mathbf{z}$에 $t$-step 노이즈가 추가된 상태
  • 식 (2): LDM 학습 목적$$L_{\mathrm{LDM}} := \mathbb{E}_{\mathcal{E}(x),\; \epsilon \sim \mathcal{N}(0,1),\; t} \Bigl[ \|\epsilon \;-\; \epsilon_{\theta}(\mathbf{z}_t,\; t) \|_{2}^{2} \Bigr].$$
    • $\epsilon_{\theta}$: 네트워크(UNet)가 예측하는 노이즈
    • $\mathbf{z}_t$: $\mathbf{z}$에 $t$-step 노이즈가 더해진 상태
    • 이 식을 최소화하면, 모델이 에서 원본 $\mathbf{z}$를 복원(또는 $\epsilon$을 정확히 예측)하도록 학습

3.3 Conditioning Mechanisms

  • 조건부 분포 $p(\mathbf{z} \mid y)$ 학습
    • $y$: 텍스트, 세그멘테이션 맵, 이미지-이미지 변환 입력 등 어떤 형태든 가능
    • DM은 원리적으로 이런 conditional distribution을 모델링 가능
  • Cross-Attention
    • UNet의 특정 중간 레이어에 Cross-Attention을 삽입
    • Query: UNet 피처맵 (노이즈화된 $\mathbf{z}_t$에서 추출된 중간 표현)
    • Key/Value: 별도 인코더(예: 텍스트 인코더)에서 추출된 임베딩
    • $\text{Attention}(Q, K, V) = \text{softmax}\Bigl(\frac{QK^T}{\sqrt{d}}\Bigr)V$ 구조로,
      • $Q = W_Q^{(i)} \cdot f_i(\mathbf{z}_t)$,
      • $K = W_K^{(i)} \cdot \phi(y)$,
      • $V = W_V^{(i)} \cdot \phi(y)$
      • $f_i(\mathbf{z}_t)$는 UNet 내부의 (flattened) 중간 표현, $\phi(y)$는 도메인 특화 인코더의 출력
  • 조건부 학습: 식 (3)$$L_{\mathrm{LDM}} := \mathbb{E}_{\mathcal{E}(x),\; y,\; \epsilon \sim \mathcal{N}(0,1),\; t} \Bigl[ \|\epsilon - \epsilon_{\theta}(\mathbf{z}_t,\; t,\; \tau_{\theta}(y)) \|^2 \Bigr].$$
    • $\tau_{\theta}(y)$: 조건 $y$를 임베딩한 결과(예: 텍스트 인코더 출력)
    • $\epsilon_{\theta}(\mathbf{z}_t,\; t,\; \tau_{\theta}(y))$: 노이즈화된 latent $\mathbf{z}_t$와 조건을 동시에 입력받아 예측된 노이즈
    • 이 손실을 최소화함으로써, 모델은 조건$y$에 맞춰 이미지를 생성(노이즈 제거)하는 방식을 학습
  • 요약
    • 조건부 입력 $(\mathbf{x}, y)$ 쌍에 대해,
      1. $\mathbf{x}$ → $\mathbf{z}$ (Autoencoder)
      2. $\mathbf{z}_t$ (노이즈 추가) + $\tau_{\theta}(y)$ (조건 임베딩) → UNet → 예측 노이즈 $\epsilon_{\theta}$
      3. Loss $\|\epsilon - \epsilon_{\theta}\|^2$을 최소화
    • 이렇게 학습된 모델은 텍스트, 세그멘테이션 등 다양한 조건에 대응하는 이미지를 생성할 수 있음

Architeture


4. Experiments

4.1 Perceptual Compression Tradeoffs

  • 다양한 downsampling factor $f$로 LDM을 학습한 결과, $f$가 너무 작으면(픽셀에 가깝게) 학습 속도가 느리고, 너무 크면 정보 손실이 커져 품질이 제한됨
  • 중간값(LDM-4, LDM-8)에서 학습 효율과 생성 품질의 균형점을 찾음

4.2 Image Generation with Latent Diffusion

  • CelebA-HQ, FFHQ, LSUN 등 여러 데이터셋에 대해 무조건부(unconditional) LDM을 학습
  • FID 및 Precision-Recall 평가에서 기존 모델(예: LSGM, GAN류)보다 우수하거나 유사한 성능을 달성
  • 고해상도(256×256) 이미지 생성에서 모드 커버리지와 시각적 품질이 모두 향상됨

4.3 Conditional Latent Diffusion

Text To Image
Layout To Image
풍경 이미지 semantic synthesis를 위해 256x256 크기로 학습한 LDM이 512×1024 크기를 생성하도록 한 결과

  • 텍스트, 세그멘테이션 등 다양한 조건을 Cross-Attention으로 처리
  • 텍스트-이미지 모델: LAION 데이터로 학습 시, 사용자 정의 문장을 잘 반영하는 결과 확인
  • MS-COCO 등 벤치마크 테스트에서 강력한 AR 모델이나 GAN류와 경쟁력 있는 FID 달성
  • 256×256 해상도로 학습된 LDM은 512×1024 해상도와 같은 더 큰 해상도로 일반화할 수 있으며, 이는 풍경 이미지의 의미적 합성과 같은 공간적 조건이 있는 작업에 적용 가능

4.4 Super-Resolution with Latent Diffusion

ImageNet-Val. LDM-SR의 64→256 super-resolution 샘플
ImageNet-Val.에 대한 64→256 super-resolution 결과

  • 저해상도 이미지를 입력받아 4배 등으로 업스케일하는 모델
  • 단순(픽셀 기반) SR보다 FID 개선 및 사용자 선호도(테스트 설문) 높게 나타남
  • SR3 등 기존 확산 기반 방법과 비교 시, FID는 개선·IS는 근소 열세 등 장단점 존재

4.5 Inpainting with Latent Diffusion

Object removal
Inpainting task에서 LAMA와 비교하였을 때의 성능 비교 결과
Places dataset의 테스트 이미지에서 512 × 512 크기의 30,000개 크롭에 대한 인페인팅 성능 비교 결과

  • 이미지 일부를 마스킹한 뒤, 해당 영역을 새로운 컨텍스트로 채움
  • Places 데이터로 학습·평가 시, 기존 Inpainting 전용 모델(LaMa 등)과 견줄 만한 성능 달성
  • 유저 스터디 결과, LDM 기반 결과물이 시각적 일관성을 더 높게 유지한다는 피드백이 확인됨

5. Limitations & Societal Impact

 

  • Limitations
    • 기존 pixel-based Diffusion Model에 비해 계산 비용이 크게 감소했으나, 샘플링 속도는 여전히 GAN류보다 느림
    • 고해상도 초정밀 이미지 생성 시, 재구성 한계가 존재 (특히 $f=4$ Autoencoder에서 미세 픽셀 정확도 유지가 어려울 수 있음)
    • 일부 슈퍼해상도(SR) 작업은 이미 어느 정도 한계를 보임
  • Societal Impact
    • 창의적인 응용(예: 예술, 디자인) 가능성과 동시에, 딥페이크(deepfake)  악의적 조작 위험도 존재
    • 여성 등 특정 집단이 허위 정보 이미지 합성의 피해에 더 취약
    • 모델이 학습 데이터(민감 정보 포함)를 노출할 가능성이 있으며, 이에 대한 프라이버시·윤리 문제 우려
    • 딥러닝 모델은 데이터 편향을 그대로 재현·증폭할 위험성이 있으므로, 공정성  정확한 분포 이해가 필수적

 


6. Conclusion

 

  • 핵심 기여
    • Latent Diffusion Model(LDM)을 통해 학습 및 샘플링 효율을 높이면서도 이미지 품질을 유지
    • Cross-Attention으로 다양한 조건을 유연하게 반영해 범용적인 이미지 생성이 가능
  • 결과
    • 여러 조건부 이미지 합성 과제에서 경쟁력 있는 성능 시현
    • 특정 작업 전용 아키텍처 없이, 폭넓은 이미지 생성·편집·복원에 활용될 수 있음을 입증