논문 링크: 2112.10752
1. Abstract
- Diffusion Model (DM)은 고품질 이미지 생성에 탁월하지만, pixel space에서 직접 학습할 때 막대한 계산량과 시간이 소요됨
- 본 논문에서는 먼저 강력한 Autoencoder를 사용해 이미지를 latent space로 압축한 뒤, 해당 공간에서 Diffusion Model을 학습하는 방안(Latent Diffusion Model, LDM)을 제안
- 이 방식은 기존 pixel space 기반 Diffusion 대비 학습 비용과 추론(샘플 생성) 비용을 크게 절감함과 동시에, 다양한 조건(예: 텍스트, 세그멘테이션 맵 등)을 유연하게 적용할 수 있음
- Inpainting, Super-Resolution, Text-to-Image Synthesis 등 여러 이미지 생성·복원 과업에서 경쟁력 있는 성능을 달성하며, 고해상도(1024×1024)까지 효율적으로 확장 가능함
2. Introduction
- High-resolution Image Synthesis의 어려움
- Image resolution이 높아질수록 pixel 수가 기하급수적으로 증가
- Diffusion Model은 여러 단계에 걸쳐 노이즈를 제거(denoising)하면서 이미지를 생성하므로, pixel마다 연산해야 할 양이 커짐
- 수백~수천 번의 step이 필요하기도 하며, 각 step이 전부 높은 차원의 연산으로 이어져 계산 비용이 폭증
- Latent Space로의 전환
- 오토인코더의 Encoder-Decoder 구조를 통해 이미지를 dimension reduction하여 latent vector 를 얻게 됨
- 불필요한 고주파 성분이나 노이즈 정보가 제거되므로, Diffusion Model이 본질적인 시각·구조적 패턴에 집중해서 학습 가능
- 이로써 pixel space 대비 훨씬 낮은 차원에서의 확산(denoising 과정)이 가능해져, 학습·추론 시 연산 비용 대폭 감소
- 연구 목표
- Autoencoder가 이미 수행한 perceptual compression을 기반으로, latent space에서 Diffusion Model을 학습해 고품질·고해상도 이미지를 저비용으로 생성
- 크로스 어텐션(Cross-Attention) 등을 활용해 다양한 조건을 적용 가능하도록 확장
3. Method
3.1 Perceptual Image Compression
- Autoencoder 구조
- Encoder $E$: 원본 이미지 $\mathbf{x}$를 downsampling factor $f$만큼 축소하여 latent vector $\mathbf{z} = E(\mathbf{x})$로 변환
- Decoder $D$: $\mathbf{z}$를 다시 upsampling하여 복원 이미지 $\hat{\mathbf{x}} = D(\mathbf{z})$ 생성
- Regularization 방식
- KL-regularization: VAE 유사 방식으로, 잠재 공간이 연속 분포를 유지하며, $\mathcal{N}(0,1)$과 가깝도록 가벼운 KL 벌점을 준 방식 → 재구성 성능이 크게 손상되지 않도록 조절
- VQ-regularization: Decoder 내부에 Vector Quantization 레이어를 추가해, 이산(discrete) 코드북을 사용 → 표현력을 높이면서도 잡음 없는 공간을 확보
- VQGAN과 유사하나, quantization layer가 Decoder에 흡수된 형태
- Loss 구성
- Perceptual Loss(VGG 기반) + Patch-based Adversarial Loss(이미지 로컬 영역의 사실감을 위한 GAN Loss)
- 단순 L1·L2 Loss보다 시각적·구적 품질이 향상된 재구성을 달성
- Patch-based Adversarial: 이미지를 여러 patch로 나눠서 진짜/가짜를 판별 → 지역적 리얼리즘 확보, 블러 현상 완화
- 이 과정을 통해, 재구성($\hat{\mathbf{x}}$)이 원본( $\mathbf{x}$ )과 최대한 유사해지도록 학습
3.2 Latent Diffusion Models
- 기본 아이디어
- Diffusion Model은 데이터(이미지)에 점차 Gaussian Noise를 추가 한 뒤, 이를 역으로 제거(denoising)하는 과정을 학습
- pixel space에서 직접 노이즈를 주고받으면 연산량이 매우 커짐 → 이를 latent space로 옮겨 계산량을 줄임
- 식 (1): 기존 Diffusion Model의 손실$$\mathcal{L}_{\mathrm{DM}} = \mathbb{E}_{x,\; \epsilon \sim \mathcal{N}(0,1),\; t} \Bigl[ \|\epsilon - \epsilon_{\theta}( \mathbf{x}_t,\; t)\|_2^2 \Bigr].$$
- $\mathbf{x}_t$: 입력 $\mathbf{x}$에 $t$-step만큼 노이즈가 추가된 상태
- $\epsilon$: $\mathcal{N}(0,1)$에서 샘플링된 원본 노이즈
- $\epsilon_{\theta}(\mathbf{x}_t,t)$: 모델이 예측한 노이즈
- 이 기대값( $\mathbb{E}$)을 최소화함으로써, 노이즈를 성공적으로 제거하도록 학습
- Autoencoder 활용
- $\mathbf{z} = E(\mathbf{x})$: Autoencoder의 Encoder $E$를 통해 얻은 latent representation
- pixel space 대신 latent space에서 forward process(점진적 노이즈 추가)를 정의
- Loss Function (Reweighted Objective)
- Latent Space에서 노이즈화된 $\mathbf{z}_t$를 역으로 복원하는 것이 핵심
- $\mathbf{z}_t$는 $\mathbf{z}$에 $t$-step 노이즈가 추가된 상태
- 식 (2): LDM 학습 목적$$L_{\mathrm{LDM}} := \mathbb{E}_{\mathcal{E}(x),\; \epsilon \sim \mathcal{N}(0,1),\; t} \Bigl[ \|\epsilon \;-\; \epsilon_{\theta}(\mathbf{z}_t,\; t) \|_{2}^{2} \Bigr].$$
- $\epsilon_{\theta}$: 네트워크(UNet)가 예측하는 노이즈
- $\mathbf{z}_t$: $\mathbf{z}$에 $t$-step 노이즈가 더해진 상태
- 이 식을 최소화하면, 모델이 에서 원본 $\mathbf{z}$를 복원(또는 $\epsilon$을 정확히 예측)하도록 학습
3.3 Conditioning Mechanisms
- 조건부 분포 $p(\mathbf{z} \mid y)$ 학습
- $y$: 텍스트, 세그멘테이션 맵, 이미지-이미지 변환 입력 등 어떤 형태든 가능
- DM은 원리적으로 이런 conditional distribution을 모델링 가능
- Cross-Attention
- UNet의 특정 중간 레이어에 Cross-Attention을 삽입
- Query: UNet 피처맵 (노이즈화된 $\mathbf{z}_t$에서 추출된 중간 표현)
- Key/Value: 별도 인코더(예: 텍스트 인코더)에서 추출된 임베딩
- $\text{Attention}(Q, K, V) = \text{softmax}\Bigl(\frac{QK^T}{\sqrt{d}}\Bigr)V$ 구조로,
- $Q = W_Q^{(i)} \cdot f_i(\mathbf{z}_t)$,
- $K = W_K^{(i)} \cdot \phi(y)$,
- $V = W_V^{(i)} \cdot \phi(y)$
- $f_i(\mathbf{z}_t)$는 UNet 내부의 (flattened) 중간 표현, $\phi(y)$는 도메인 특화 인코더의 출력
- 조건부 학습: 식 (3)$$L_{\mathrm{LDM}} := \mathbb{E}_{\mathcal{E}(x),\; y,\; \epsilon \sim \mathcal{N}(0,1),\; t} \Bigl[ \|\epsilon - \epsilon_{\theta}(\mathbf{z}_t,\; t,\; \tau_{\theta}(y)) \|^2 \Bigr].$$
- $\tau_{\theta}(y)$: 조건 $y$를 임베딩한 결과(예: 텍스트 인코더 출력)
- $\epsilon_{\theta}(\mathbf{z}_t,\; t,\; \tau_{\theta}(y))$: 노이즈화된 latent $\mathbf{z}_t$와 조건을 동시에 입력받아 예측된 노이즈
- 이 손실을 최소화함으로써, 모델은 조건$y$에 맞춰 이미지를 생성(노이즈 제거)하는 방식을 학습
- 요약
- 조건부 입력 $(\mathbf{x}, y)$ 쌍에 대해,
- $\mathbf{x}$ → $\mathbf{z}$ (Autoencoder)
- $\mathbf{z}_t$ (노이즈 추가) + $\tau_{\theta}(y)$ (조건 임베딩) → UNet → 예측 노이즈 $\epsilon_{\theta}$
- Loss $\|\epsilon - \epsilon_{\theta}\|^2$을 최소화
- 이렇게 학습된 모델은 텍스트, 세그멘테이션 등 다양한 조건에 대응하는 이미지를 생성할 수 있음
- 조건부 입력 $(\mathbf{x}, y)$ 쌍에 대해,
4. Experiments
4.1 Perceptual Compression Tradeoffs
- 다양한 downsampling factor $f$로 LDM을 학습한 결과, $f$가 너무 작으면(픽셀에 가깝게) 학습 속도가 느리고, 너무 크면 정보 손실이 커져 품질이 제한됨
- 중간값(LDM-4, LDM-8)에서 학습 효율과 생성 품질의 균형점을 찾음
4.2 Image Generation with Latent Diffusion
- CelebA-HQ, FFHQ, LSUN 등 여러 데이터셋에 대해 무조건부(unconditional) LDM을 학습
- FID 및 Precision-Recall 평가에서 기존 모델(예: LSGM, GAN류)보다 우수하거나 유사한 성능을 달성
- 고해상도(256×256) 이미지 생성에서 모드 커버리지와 시각적 품질이 모두 향상됨
4.3 Conditional Latent Diffusion
- 텍스트, 세그멘테이션 등 다양한 조건을 Cross-Attention으로 처리
- 텍스트-이미지 모델: LAION 데이터로 학습 시, 사용자 정의 문장을 잘 반영하는 결과 확인
- MS-COCO 등 벤치마크 테스트에서 강력한 AR 모델이나 GAN류와 경쟁력 있는 FID 달성
- 256×256 해상도로 학습된 LDM은 512×1024 해상도와 같은 더 큰 해상도로 일반화할 수 있으며, 이는 풍경 이미지의 의미적 합성과 같은 공간적 조건이 있는 작업에 적용 가능
4.4 Super-Resolution with Latent Diffusion
- 저해상도 이미지를 입력받아 4배 등으로 업스케일하는 모델
- 단순(픽셀 기반) SR보다 FID 개선 및 사용자 선호도(테스트 설문) 높게 나타남
- SR3 등 기존 확산 기반 방법과 비교 시, FID는 개선·IS는 근소 열세 등 장단점 존재
4.5 Inpainting with Latent Diffusion
- 이미지 일부를 마스킹한 뒤, 해당 영역을 새로운 컨텍스트로 채움
- Places 데이터로 학습·평가 시, 기존 Inpainting 전용 모델(LaMa 등)과 견줄 만한 성능 달성
- 유저 스터디 결과, LDM 기반 결과물이 시각적 일관성을 더 높게 유지한다는 피드백이 확인됨
5. Limitations & Societal Impact
- Limitations
- 기존 pixel-based Diffusion Model에 비해 계산 비용이 크게 감소했으나, 샘플링 속도는 여전히 GAN류보다 느림
- 고해상도 초정밀 이미지 생성 시, 재구성 한계가 존재 (특히 $f=4$ Autoencoder에서 미세 픽셀 정확도 유지가 어려울 수 있음)
- 일부 슈퍼해상도(SR) 작업은 이미 어느 정도 한계를 보임
- Societal Impact
- 창의적인 응용(예: 예술, 디자인) 가능성과 동시에, 딥페이크(deepfake) 등 악의적 조작 위험도 존재
- 여성 등 특정 집단이 허위 정보나 이미지 합성의 피해에 더 취약
- 모델이 학습 데이터(민감 정보 포함)를 노출할 가능성이 있으며, 이에 대한 프라이버시·윤리 문제 우려
- 딥러닝 모델은 데이터 편향을 그대로 재현·증폭할 위험성이 있으므로, 공정성 및 정확한 분포 이해가 필수적
6. Conclusion
- 핵심 기여
- Latent Diffusion Model(LDM)을 통해 학습 및 샘플링 효율을 높이면서도 이미지 품질을 유지
- Cross-Attention으로 다양한 조건을 유연하게 반영해 범용적인 이미지 생성이 가능
- 결과
- 여러 조건부 이미지 합성 과제에서 경쟁력 있는 성능 시현
- 특정 작업 전용 아키텍처 없이, 폭넓은 이미지 생성·편집·복원에 활용될 수 있음을 입증