논문 링크: 2310.04378
참고 논문 리뷰 블로그 링크: Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰 :: LOEWEN
1. Introduction
- Diffusion Model의 부상
- 확산(디퓨전) 모델은 다양한 도메인(이미지, 오디오, 텍스트 등)에서 강력한 생성 성능을 보여주어 많은 주목을 받고 있음.
- 특히, Stable Diffusion과 같은 Latent Diffusion Model (LDM)은 고해상도 text-to-image 합성에서 탁월한 성능을 시연.
- 문제의식: 느린 생성 속도
- 디퓨전 모델은 반복적인 reverse process로 노이즈를 점진적으로 제거해야 하므로, 샘플링 단계가 많다(수십~수백).
- 실시간/인터랙티브 애플리케이션에는 부적합.
- 기존 해결 시도
- ODE solver(DDIM, DPM-Solver 등) 개선
- 10~20step 이내로 생성 단계를 줄이려는 접근.
- Distillation
- 사전 학습된 모델을 few-step 혹은 one-step 모델로 추출.
- Consistency Model(CM)
- ODE 궤적 상에서 점 일관성(point consistency)을 학습해,
- 단 한 번의 생성(step)으로도 비교적 좋은 품질 이미지를 얻음.
- 단점: 픽셀 공간에만 적용되어, 고해상도 합성과 조건부 생성(text-to-image)에는 어려움.
- ODE solver(DDIM, DPM-Solver 등) 개선
- 본 논문의 기여
- Latent Consistency Model (LCM) 제안
- Stable Diffusion의 오토인코더(Encoder/Decoder)를 사용한 latent space에서 Consistency 아이디어를 적용.
- 단 1~4단계의 inference로도 고해상도(예: 768×768) 이미지 생성 가능.
- Classifier-free guidance(CFG)까지 통합하여 조건부(diffusion)에도 대응.
- One-stage guided distillation
- 증강된 PF-ODE를 풀어, 원샷으로 guided diffusion 모델(Stable Diffusion)을 distill.
- Latent Consistency Fine-tuning (LCF)
- 사전 학습된 LCM을 맞춤형(custom) 데이터셋에 추가 학습 → few-step inference 유지하면서도 특정 도메인으로 전문화.
2. Related Work
- Diffusion Models (DDPM, iDDPM, etc.)
- 이미지의 forward process: 원본 → 노이즈
- reverse process: 노이즈 → 원본 복원
- 높은 품질이지만 많은 reverse step 필요.
- Latent Diffusion Model (Stable Diffusion)
- 고차원 픽셀 공간 대신, VAE 기반 오토인코더의 latent space에서 diffusion 수행.
- 계산 비용/메모리 사용 크게 절감, 고해상도 이미지 가능.
- ODE Solver 개선
- DDIM, DPM-Solver, DPM-Solver++ 등: 샘플링 단계를 10~20 정도로 줄여 품질·속도 균형을 추구.
- Consistency Model (CM)
- ODE 해 궤적 상에서 단일 단계로 최종 이미지를 추론하는 일관성(consistency) 맵핑 학습.
- 그러나 픽셀 공간 중심, 고해상도나 조건부 생성에는 부적합.
3. Consistency Model & Latent Space
3.1 Consistency Model 개념 복습
- Consistency Function $f_\theta$:
- 임의의 중간 상태(노이즈가 일부 남은 이미지)를 입력받아, 최종 깨끗한 이미지를 한 번에 예측.
- 각 단계별로 중간 상태가 달라도, $f_\theta$는 거의 동일한 결과(최종본)를 산출하도록 학습.
3.2 Latent Space & Stable Diffusion
- 오토인코더 $(E, D)$:
- 이미지 $x$를 압축한 latent 벡터 $z = E(x)$
- 복원 시 $\hat{x} = D(z)$로 디코딩
- LDM(Stable Diffusion)은 이 latent 공간에서 노이즈 제거 과정을 수행 →
- 계산량 감소, 고해상도 지원
- LCM: 픽셀 대신 latent 공간에서 consistency distillation을 수행 (Latent Consistency Distillation, LCD).
4. Latent Consistency Model (LCM)
4.1 Consistency Distillation in the Latent Space
- PF-ODE(Probability Flow ODE)
- Diffusion reverse 과정을 미분방정식(ODE) 형태로 표현.
- LCM은 이 ODE의 해를 바로 예측하는 함수를 학습.
- Noise 예측 모델 $\epsilon_\theta$
- 원본 Stable Diffusion과 동일 파라미터로 초기화.
- LCM에 맞게 consistency function $f_\theta$로 재구성.
- Consistency Loss
- DDIM, DPM-Solver 등의 ODE solver $\Psi$를 이용해,
- 중간 상태 $z_{t_{n+1}}$ → $z_{t_n}$로 넘어갈 때 예측 일관성을 최소화하도록 학습.
4.2 One-Stage Guided Distillation (Classifier-Free Guidance 통합)
- CFG(Classifier-Free Guidance, scale $\omega$):
- $$\tilde{\epsilon}_\theta(z_t, \omega, c, t) = (1 + \omega)\epsilon_\theta(z_t, c, t) - \omega \epsilon_\theta(z_t, \varnothing, t)$$
- 고품질 합성을 위해 $\omega \ge 6$ 정도 사용.
- 증강된 PF-ODE
- CFG 적용 시, ODE에 $\tilde{\epsilon}_\theta$를 대입 → 증강된 consistency function 필요.
- 1-Stage distillation
- 기존 방식(2-stage guided distillation)은 매우 계산 집약적 (45 A100 GPU days).
- LCM은 1단계로 CFG를 반영 (단 32 A100 GPU 시간).
- 오차 누적으로 인한 성능 저하를 방지.
4.3 Accelerating Distillation with Skipping Time Steps
- Stable Diffusion은 1000개 이상의 timestep 스케줄 사용.
- 각 인접 단계 $(t_{n+1} \rightarrow t_n)$ 일관성만 강제하면 수렴이 느리다.
- Skipping-Step
- $(t_{n+k} \rightarrow t_n)$ 식으로 더 큰 간격을 뛰어넘어 일관성 학습.
- 적절한 kk로 설정해, 학습 스텝 단축 & 결과 품질 균형.
- ODE solver(DDIM, DPM-Solver 등)를 활용해 대략적으로 시뮬레이션.
4.4 Latent Consistency Fine-tuning (LCF)
- 사후 미세조정(Fine-tuning):
- 사전 학습된 LCM을 특정 도메인(포켓몬, 심슨 등)에 추가 학습.
- Teacher diffusion model 없이도, few-step 가능.
- 기존 diffusion fine-tuning보다 계산이 훨씬 효율적일 수 있음.
5. Experiments
5.1 Text-to-Image Generation
- Dataset: LAION-Aesthetics-6+ (12M), LAION-Aesthetics-6.5+ (650K)
- Resolution: 512×512, 768×768
- Metric: FID, CLIP score, 등
- 결과:
- LCM은 1~4단계 샘플링만으로도 고화질 이미지 생성.
- CFG scale $\omega=8$에서 FID 대폭 개선, CLIP 점수도 우수.
5.2 Ablation Study
- ODE solver vs. Skipping step $k$
- DDIM vs. DPM-Solver++ 등 비교
- Skipping step을 크게 잡으면 빠른 수렴, 단 너무 크면 근사 오차 증가
- CFG scale $\omega$
- $\omega$ 가 클수록 이미지 품질(묘사 디테일)은 좋아지나, 왜곡·Artifact도 증가할 수 있음.
- LCM은 폭넓은 $\omega$ 범위에서 우수한 성능 유지.
- 1~4-step Inference 품질
- 1-step은 완전 실시간 수준이나 품질이 다소 떨어질 수 있음
- 4-step 시, 기존 10~20-step 디퓨전과 맞먹거나 더 나은 품질 달성.
5.3 Downstream Consistency Fine-tuning
- 포켓몬/심슨 데이터셋
- LCF 활용 시, 4-step LCM으로 빠르고 품질 좋은 결과.
- 사후 미세조정 시 custom 스타일에도 대응 가능.
6. Conclusion
- 기여 요약
- Latent Consistency Model (LCM):
- 기존 픽셀 기반 Consistency Model을 latent space(Stable Diffusion 구조)로 확장.
- Skipping-step과 증강된 PF-ODE를 통해 1-stage distillation으로 CFG까지 학습.
- Few-step Inference:
- 1~4단계로 고해상도 이미지를 생성하면서도 높은 품질(FID, CLIP 점수) 달성.
- Latent Consistency Fine-tuning (LCF):
- 사전 학습된 LCM을 맞춤형 데이터셋으로 간단히 추가 학습해 few-step 유지.
- Latent Consistency Model (LCM):
- 의의
- Diffusion 모델의 가장 큰 병목인 느린 샘플링 문제를 한층 해결.
- 고해상도, 텍스트 조건부 생성, 리얼타임/인터랙티브 애플리케이션 가능성을 높임.
- 한계 및 전망
- 12 step에서도 빠른 생성이 가능하지만, 품질 면에서 34 step 이상이 권장될 수 있음.
- 더 큰 모델(예: Stable Diffusion 3)이나 다양한 도메인에서 후속 연구 기대.
7. 요약
- LCM은 Stable Diffusion 수준의 고해상도 이미지를, 불과 1~4단계의 샘플링만으로 효율적으로 생성할 수 있는 새로운 Consistency 기반 모델이다.
- 특징:
- Latent 공간에서 일관성(distillation) 수행
- Classifier-free guidance를 1-step으로 통합
- Skipping-step 기법으로 학습 가속
- Fine-tuning으로 다양한 도메인 확장 가능
- 의의:
- 초고속 생성(real-time 대응) + 고품질 + 텍스트 조건부를 모두 만족시키는 최신 접근이라는 점에서 매우 혁신적.