본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1] Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference

by YeonJuJeon 2025. 1. 25.

논문 링크: 2310.04378

 

 

참고 논문 리뷰 블로그 링크: Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰 :: LOEWEN

 

Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰

0. 요약문제의식이 논문은 고해상도 이미지 생성을 위한 Latent Diffusion Models의 샘플링 속도가 느리다는 문제에 주목함. 기존의 LDMs는 반복적인 reverse process을 통해 점진적으로 노이즈를 제거해야

loewen.tistory.com


1. Introduction

  • Diffusion Model의 부상
    • 확산(디퓨전) 모델은 다양한 도메인(이미지, 오디오, 텍스트 등)에서 강력한 생성 성능을 보여주어 많은 주목을 받고 있음.
    • 특히, Stable Diffusion과 같은 Latent Diffusion Model (LDM) 고해상도 text-to-image 합성에서 탁월한 성능을 시연.
  • 문제의식: 느린 생성 속도
    • 디퓨전 모델은 반복적인 reverse process로 노이즈를 점진적으로 제거해야 하므로, 샘플링 단계가 많다(수십~수백).
    • 실시간/인터랙티브 애플리케이션에는 부적합.
  • 기존 해결 시도
    1. ODE solver(DDIM, DPM-Solver 등) 개선
      • 10~20step 이내로 생성 단계를 줄이려는 접근.
    2. Distillation
      • 사전 학습된 모델을 few-step 혹은 one-step 모델로 추출.
    3. Consistency Model(CM)
      • ODE 궤적 상에서 점 일관성(point consistency)을 학습해,
      • 단 한 번의 생성(step)으로도 비교적 좋은 품질 이미지를 얻음.
      • 단점: 픽셀 공간에만 적용되어, 고해상도 합성과 조건부 생성(text-to-image)에는 어려움.
  • 본 논문의 기여
    • Latent Consistency Model (LCM) 제안
      • Stable Diffusion의 오토인코더(Encoder/Decoder)를 사용한 latent space에서 Consistency 아이디어를 적용.
      • 단 1~4단계의 inference로도 고해상도(예: 768×768) 이미지 생성 가능.
      • Classifier-free guidance(CFG)까지 통합하여 조건부(diffusion)에도 대응.
    • One-stage guided distillation
      • 증강된 PF-ODE를 풀어, 원샷으로 guided diffusion 모델(Stable Diffusion)을 distill.
    • Latent Consistency Fine-tuning (LCF)
      • 사전 학습된 LCM을 맞춤형(custom) 데이터셋에 추가 학습 → few-step inference 유지하면서도 특정 도메인으로 전문화.

2. Related Work

  1. Diffusion Models (DDPM, iDDPM, etc.)
    • 이미지의 forward process: 원본 → 노이즈
    • reverse process: 노이즈 → 원본 복원
    • 높은 품질이지만 많은 reverse step 필요.
  2. Latent Diffusion Model (Stable Diffusion)
    • 고차원 픽셀 공간 대신, VAE 기반 오토인코더의 latent space에서 diffusion 수행.
    • 계산 비용/메모리 사용 크게 절감, 고해상도 이미지 가능.
  3. ODE Solver 개선
    • DDIM, DPM-Solver, DPM-Solver++ 등: 샘플링 단계를 10~20 정도로 줄여 품질·속도 균형을 추구.
  4. Consistency Model (CM)
    • ODE 해 궤적 상에서 단일 단계로 최종 이미지를 추론하는 일관성(consistency) 맵핑 학습.
    • 그러나 픽셀 공간 중심, 고해상도나 조건부 생성에는 부적합.

3. Consistency Model & Latent Space

3.1 Consistency Model 개념 복습

  • Consistency Function $f_\theta$:
    • 임의의 중간 상태(노이즈가 일부 남은 이미지)를 입력받아, 최종 깨끗한 이미지를 한 번에 예측.
    • 각 단계별로 중간 상태가 달라도, $f_\theta$는 거의 동일한 결과(최종본)를 산출하도록 학습.

3.2 Latent Space & Stable Diffusion

  • 오토인코더 $(E, D)$:
    • 이미지 $x$를 압축한 latent 벡터 $z = E(x)$
    • 복원 시 $\hat{x} = D(z)$로 디코딩
  • LDM(Stable Diffusion)은 이 latent 공간에서 노이즈 제거 과정을 수행 →
    • 계산량 감소, 고해상도 지원
  • LCM: 픽셀 대신 latent 공간에서 consistency distillation을 수행 (Latent Consistency Distillation, LCD).

4. Latent Consistency Model (LCM)

4.1 Consistency Distillation in the Latent Space

  1. PF-ODE(Probability Flow ODE)
    • Diffusion reverse 과정을 미분방정식(ODE) 형태로 표현.
    • LCM은 이 ODE의 해를 바로 예측하는 함수를 학습.
  2. Noise 예측 모델 $\epsilon_\theta$
    • 원본 Stable Diffusion과 동일 파라미터로 초기화.
    • LCM에 맞게 consistency function $f_\theta$로 재구성.
  3. Consistency Loss
    • DDIM, DPM-Solver 등의 ODE solver $\Psi$를 이용해,
    • 중간 상태 $z_{t_{n+1}}$  $z_{t_n}$로 넘어갈 때 예측 일관성을 최소화하도록 학습.

 

4.2 One-Stage Guided Distillation (Classifier-Free Guidance 통합)

  • CFG(Classifier-Free Guidance, scale $\omega$):
    • $$\tilde{\epsilon}_\theta(z_t, \omega, c, t) = (1 + \omega)\epsilon_\theta(z_t, c, t) - \omega \epsilon_\theta(z_t, \varnothing, t)$$
    • 고품질 합성을 위해 $\omega \ge 6$ 정도 사용.
  • 증강된 PF-ODE
    • CFG 적용 시, ODE에 $\tilde{\epsilon}_\theta$를 대입 → 증강된 consistency function 필요.
  • 1-Stage distillation
    • 기존 방식(2-stage guided distillation)은 매우 계산 집약적 (45 A100 GPU days).
    • LCM은 1단계로 CFG를 반영 (단 32 A100 GPU 시간).
    • 오차 누적으로 인한 성능 저하를 방지.

4.3 Accelerating Distillation with Skipping Time Steps

  • Stable Diffusion은 1000개 이상의 timestep 스케줄 사용.
    • 각 인접 단계 $(t_{n+1} \rightarrow t_n)$ 일관성만 강제하면 수렴이 느리다.
  • Skipping-Step
    • $(t_{n+k} \rightarrow t_n)$ 식으로 더 큰 간격을 뛰어넘어 일관성 학습.
    • 적절한 kk로 설정해, 학습 스텝 단축 & 결과 품질 균형.
    • ODE solver(DDIM, DPM-Solver 등)를 활용해 대략적으로 시뮬레이션.

4.4 Latent Consistency Fine-tuning (LCF)

  • 사후 미세조정(Fine-tuning):
    • 사전 학습된 LCM을 특정 도메인(포켓몬, 심슨 등)에 추가 학습.
    • Teacher diffusion model 없이도, few-step 가능.
    • 기존 diffusion fine-tuning보다 계산이 훨씬 효율적일 수 있음.

5. Experiments

5.1 Text-to-Image Generation

  • Dataset: LAION-Aesthetics-6+ (12M), LAION-Aesthetics-6.5+ (650K)
  • Resolution: 512×512, 768×768
  • Metric: FID, CLIP score, 등
  • 결과:
    • LCM은 1~4단계 샘플링만으로도 고화질 이미지 생성.
    • CFG scale $\omega=8$에서 FID 대폭 개선, CLIP 점수도 우수.

5.2 Ablation Study

  1. ODE solver vs. Skipping step $k$
    • DDIM vs. DPM-Solver++ 등 비교
    • Skipping step을 크게 잡으면 빠른 수렴, 단 너무 크면 근사 오차 증가
  2. CFG scale $\omega$
    • $\omega$ 가 클수록 이미지 품질(묘사 디테일)은 좋아지나, 왜곡·Artifact도 증가할 수 있음.
    • LCM은 폭넓은 $\omega$  범위에서 우수한 성능 유지.
  3. 1~4-step Inference 품질
    • 1-step은 완전 실시간 수준이나 품질이 다소 떨어질 수 있음
    • 4-step 시, 기존 10~20-step 디퓨전과 맞먹거나 더 나은 품질 달성.

5.3 Downstream Consistency Fine-tuning

  • 포켓몬/심슨 데이터셋
    • LCF 활용 시, 4-step LCM으로 빠르고 품질 좋은 결과.
    • 사후 미세조정 시 custom 스타일에도 대응 가능.

6. Conclusion

  1. 기여 요약
    • Latent Consistency Model (LCM):
      • 기존 픽셀 기반 Consistency Model을 latent space(Stable Diffusion 구조)로 확장.
      • Skipping-step 증강된 PF-ODE를 통해 1-stage distillation으로 CFG까지 학습.
    • Few-step Inference:
      • 1~4단계로 고해상도 이미지를 생성하면서도 높은 품질(FID, CLIP 점수) 달성.
    • Latent Consistency Fine-tuning (LCF):
      • 사전 학습된 LCM을 맞춤형 데이터셋으로 간단히 추가 학습해 few-step 유지.
  2. 의의
    • Diffusion 모델의 가장 큰 병목 느린 샘플링 문제를 한층 해결.
    • 고해상도, 텍스트 조건부 생성, 리얼타임/인터랙티브 애플리케이션 가능성을 높임.
  3. 한계 및 전망
    • 12 step에서도 빠른 생성이 가능하지만, 품질 면에서 34 step 이상이 권장될 수 있음.
    • 더 큰 모델(예: Stable Diffusion 3)이나 다양한 도메인에서 후속 연구 기대.

7. 요약

  • LCM Stable Diffusion 수준의 고해상도 이미지를, 불과 1~4단계의 샘플링만으로 효율적으로 생성할 수 있는 새로운 Consistency 기반 모델이다.
  • 특징:
    • Latent 공간에서 일관성(distillation) 수행
    • Classifier-free guidance를 1-step으로 통합
    • Skipping-step 기법으로 학습 가속
    • Fine-tuning으로 다양한 도메인 확장 가능
  • 의의:
    • 초고속 생성(real-time 대응) + 고품질 + 텍스트 조건부를 모두 만족시키는 최신 접근이라는 점에서 매우 혁신적.