본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1] 김경훈 - LATENT CONSISTENCY MODELS:SYNTHESIZING HIGH-RESOLUTION IMAGESWITH FEW-STEP INFERENCE

by Theron 2025. 1. 25.

 

 

원본 논문 링크 : https://arxiv.org/pdf/2310.04378

 

 

 


 


블로그 작성일 : 2025.01.25(토)

 
<선 요약>
LCM(컨시스턴시 모델)은 생성 속도를 높이고자 하는 목적에서 출발한 모델로, 고해상도 이미지를 더 빠르게 생성하고자 하는 노력이 돋보입니다. 기존의 디퓨전 모델은 단계를 여러 번 거쳐 이미지를 생성하는데, LCM은 이러한 단계를 축소하여 빠르게 고품질 이미지를 얻고자 합니다.

LCM은 역 디퓨전과정에서 수식을 통해 특정 부분을 대체함으로써 이미지 생성 속도를 향상시킵니다. 이는 기존의 미분 방정식을 푸는 과정을 더 효율적으로 처리함으로써 가능해졌습니다. 특히, probability flow 기반의 미분 방정식을 대체하여 학습을 가속화하고 높은 품질의 이미지를 빠르게 생성할 수 있었습니다.

기존의 방식은 수십 번의 스텝이 필요했지만, LCM을 활용하면 몇 번의 스텝만으로도 고퀄리티 이미지를 생성할 수 있습니다. 이로써 빠른 추론이 가능하며, 텍스트를 실시간으로 입력하여 즉각적인 이미지 생성이 가능해졌습니다.

LCM은 또한 로랭크 어댑테이션을 활용하여 큰 모델을 미세 조정하여 사용하는데, 이것은 기존 모델에 적은 수정만으로 LCM을 적용할 수 있다는 장점이 있습니다. 디스틸레이션을 통해 작은 모델로 미세 조정함으로써, 빠른 생성 속도와 높은 품질의 이미지를 동시에 얻을 수 있게 되었습니다.

총평하자면, LCM은 디퓨전 모델의 한계를 극복하고자 하는 의지에서 출발하여, 빠른 생성과 높은 품질을 동시에 실현하는 혁신적인 모델로 평가됩니다. 이로써 실시간 이미지 생성의 가능성이 크게 높아졌으며, 다양한 예제들을 통해 LCM의 성능을 확인할 수 있습니다.

 

 
 
 


이 논문은 2023년 10월 6일에 나온 논문입니다.

▲ 4-Steps Inference

 2-Steps Inference
 

 1-Steps Inference
 
 

<설명>

Diffusion 모델은 다양한 도메인에서 강력한 생성 모델로 주목을 받아왔습니다. 특히 Stable Diffusion과 같은 latent diffusion model (LDM)은 고해상도 text-to-image 합성 작업에서 뛰어난 성과를 보여주었습니다. 그러나 diffusion 모델의 주요 단점은 반복적인 역 과정으로 인해 생성 속도가 느려지고 실시간 적용이 제한된다는 것입니다. 이 한계를 극복하기 위해 연구자들은 ODE solver를 향상시키고 사전 학습된 diffusion 모델을 몇 단계 추론이 가능한 모델로 압축(distill)하는 등 여러 방법을 제안해왔습니다.

빠른 고해상도 이미지 생성을 위한 유망한 대안으로 Consistency Model (CM)이 최근에 제안되었습니다. CM은 ODE 궤적에서 점 일관성을 유지하는 일관성 매핑을 학습하여 단일 단계 생성을 가능케 하여 계산 집약적인 반복이 필요하지 않습니다. 그러나 CM은 픽셀 공간 이미지 생성에만 국한되어 있어 고해상도 이미지를 합성하는 데는 적합하지 않습니다. 또한 조건부 diffusion 모델에 대한 적용과 분류기 없는 가이드의 통합에 대한 연구가 이루어지지 않아 text-to-image 합성에는 부적절합니다.

본 논문에서는 Latent Consistency Model (LCM)을 소개합니다. LDM을 반영하여 Stable Diffusion의 사전 학습된 오토인코더 이미지 latent space에 consistency model을 적용합니다. 저자들은 증강된 PF-ODE를 해결하여 사전 학습된 guided diffusion model을 효율적으로 latent consistency model로 변환하는 1단계 guided distillation 방법을 제안합니다. 또한 사전 학습된 LCM을 fine-tuning하여 맞춤형 이미지 데이터셋에 대한 few-step 추론을 지원하는 Latent Consistency Finetuning을 제안합니다.

 
 
Stable Diffusion (SD)과 같은 대규모 diffusion model에서 이미지 latent space를 활용하면 이미지 생성 품질이 효과적으로 향상되고 계산 부하가 줄어든다. SD에서 오토인코더 (E,D)는 먼저 높은 차원의 이미지 데이터를 낮은 차원의 latent 벡터 z=E(x)로 압축하도록 학습된 다음 이미지를 x^ =D(z)로 재구성하기 위해 디코딩된다. Latent space에서 diffusion model을 학습시키면 픽셀 기반 모델에 비해 계산 비용이 크게 줄어들고 inference 속도가 빨라진다. LDM을 사용하면 노트북 GPU에서 고해상도 이미지를 생성할 수 있다. LCM의 경우 CM에 사용되는 픽셀 공간과 대조적으로 consistency distillation을 위해 latent space의 이점을 활용한다. Latent Consistency Distillation (LCD)라고 하는 이 접근 방식은 사전 학습된 SD에 적용되어 1~4 step으로 고해상도 (ex. 768××768) 이미지를 합성할 수 있다. 본 논문은 조건부 생성에 중점을 둔다. Reverse process의 PF-ODE는 다음과 같다.
 

 
Consistency Models 참고 링크 : https://ostin.tistory.com/192
 

 

Consistency Models

OpenAI에서 공개한 자기 일관성을 통해 학습하는 모델 One-step으로 꽤 괜찮을 품질의 이미지를 생성할 수 있는 것이 인상적. Github arXiv Abstract 확산 모델은 많은 진전을 이루었지만 느린 샘플링 속도

ostin.tistory.com

 

 

 

1. 서론

  • 논문내용에서 강조된 부분:
    • "Latent Diffusion Models(LDMs)은 고해상도 이미지 합성에서 주목할 만한 성과를 보여주었지만, 느린 생성 속도가 단점으로 작용하고 있습니다."
    • "이를 해결하기 위해 Consistency Models(CMs) 및 LCM(잠재 일관성 모델)이 제안되었으며, LCM은 빠른 추론 속도를 제공하여 실시간 애플리케이션에 적합합니다."
  • 이 부분에서는 확산 모델, 특히 잠재 확산 모델의 중요성과 고품질 이미지 생성에 있어서의 능력을 강조합니다. 또한, 이러한 모델들의 주요 단점인 느린 생성 속도와 그로 인한 실시간 적용의 한계를 언급하며, 이를 극복하기 위한 다양한 시도들에 대해 설명합니다. LCM의 제안 배경 및 연구 동기를 보다 자세히 기술하며, 기존 연구와의 차별점을 간략히 서술합니다.

 


2. 관련 연구

  • 논문에서 제공된 관련 연구:
    • "Diffusion Models의 느린 생성 속도를 해결하기 위한 다양한 기법, 예를 들어 ODE solver, distillation 방법 등이 논의되었습니다."
    • "특히 Guided Distillation 및 Consistency Mapping 기술이 LCM 개발에 중요한 기반이 되었습니다."
  • 이 섹션은 기존 확산 모델과 잠재 확산 모델에 대한 기존 연구들을 검토합니다. 특히, 이미지 생성 속도를 개선하기 위한 다양한 기술적 접근법과 이러한 접근법들의 한계점들을 탐구합니다. LCM과 관련된 Consistency Models 및 Guided Diffusion Model에 대해 심층적으로 설명하며, 기존 방법론의 한계를 기술합니다.

 


3. 예비 연구

  • 논문의 배경지식 설명:
    • "Diffusion 모델의 원리와 확률 흐름 ODE(PF-ODE)의 정의 및 적용 방식."
    • "Consistency Model은 PF-ODE의 자기 일관성을 활용하여 단일 단계 추론을 가능하게 합니다."
  • 여기서는 확산 모델의 기본 원리와 일관성 모델의 개념에 대해 설명합니다. 이는 잠재 일관성 모델의 이해를 돕기 위한 기초적인 배경 지식을 제공합니다. 확산 모델의 작동 원리와 Consistency Model의 기초 원리를 도식화하거나 간단한 예제를 통해 보충합니다.

 


4. 잠재 일관성 모델

  • 논문의 핵심 내용:
    • "LCM은 잠재 공간에서 Consistency Function을 학습하여 PF-ODE의 해를 직접적으로 예측합니다."
    • "LCM의 구조 및 Guided Distillation, SKIPPING-STEP 기법을 통해 생성 과정을 최적화합니다."
  • 이 섹션은 논문의 핵심 개념인 잠재 일관성 모델을 소개하고, 이 모델이 기존의 확산 모델과 어떻게 다른지 설명합니다. 모델의 구조와 기능, 그리고 이를 통한 이미지 생성 과정의 개선 방법에 대해 자세히 다룹니다. LCM의 주요 구조와 기존 Stable Diffusion 모델과의 차이점, SKIPPING-STEP 기법의 효과에 대한 상세 설명.

 


5. 실험

  • 논문의 실험 결과:
    • "LCM은 LAION 데이터셋에서 2~4단계의 추론을 통해 뛰어난 이미지 품질과 속도를 달성했습니다."
    • "GUIDED-DISTILL, DDIM 등과의 성능 비교 및 Ablation Study 결과."
  • 다양한 실험을 통해 잠재 일관성 모델의 성능을 평가합니다. 이 부분에서는 모델이 생성한 이미지의 품질, 생성 속도, 그리고 다양한 설정에서의 효율성 등을 분석합니다. 주요 실험 설정, 데이터셋, 모델 구성 및 결과 분석을 표와 그래프를 통해 더욱 상세히 제시.

 

 

이 그림은 다양한 ODE 솔버(DDIM, DPM, DPM++)와 스킵 단계 kk 값이 Latent Consistency Model(LCM)의 FID(Frechet Inception Distance) 성능에 미치는 영향을 비교한 실험 결과를 나타냅니다. FID는 생성된 이미지의 품질을 평가하는 지표로, 값이 낮을수록 품질이 더 높음을 의미합니다.

세부 설명:

    1. 그래프 구조:
      • 각 패널은 다른 ODE 솔버를 사용한 결과를 보여줍니다:
        • 첫 번째 패널: DDIM-Solver
        • 두 번째 패널: DPM-Solver
        • 세 번째 패널: DPM-Solver++
      • 각 패널 내에서 kk 값(스킵 단계)이 다르게 설정된 결과를 비교합니다:
        • k=1,5,10,20,50k = 1, 5, 10, 20, 50
    2. 주요 관찰점:
      • 스킵 단계 kk:
        • DDIM의 경우 k=1k = 1은 매우 느리게 수렴하며, k=20k = 20에서 가장 빠르고 안정적인 수렴을 보여줍니다.
        • DPM 및 DPM++는 DDIM보다 더 큰 kk 값을 수용할 수 있으며, k=50k = 50에서도 안정적인 성능을 보여줍니다.
      • FID 성능:
        • 모든 솔버에서 kk 값이 적절히 설정되면 FID가 빠르게 감소하여 높은 품질의 이미지를 생성할 수 있음을 보여줍니다.
        • kk 값이 지나치게 작으면 느린 수렴을 유발하고, 지나치게 크면 정확도가 저하될 수 있습니다(DDIM에서 특히 두드러짐).
  1. 결론:
    • 스킵 단계 kk는 LCM의 학습 효율성 및 성능에 중요한 영향을 미칩니다.
    • DDIM은 상대적으로 작은 kk 값에서 최적의 성능을 발휘하며, DPM 및 DPM++는 더 큰 kk 값을 효과적으로 처리할 수 있습니다.
    • 전체적으로 k=20k = 20은 대부분의 설정에서 우수한 균형을 제공하며, 학습 속도와 생성 품질 모두를 극대화합니다.
이 그래프는 Latent Consistency Model의 최적화 과정에서 스킵 단계 kk의 중요성과 각 ODE 솔버의 특성을 강조합니다.

 

 

toggle start
ODE 솔버
ODE 솔버란? ODE 솔버는 **Ordinary Differential Equation(상미분방정식)**을 푸는 알고리즘이나 기법을 뜻합니다. 확산 모델(Diffusion Models)이나 일관성 모델(Consistency Models)에서는 **확률 흐름 ODE(Probability Flow ODE)**라는 방정식을 풀어 데이터를 생성하거나 변환합니다. 이러한 과정에서 ODE 솔버는 모델이 데이터를 효과적으로 생성하거나 복원할 수 있도록 도와줍니다. ODE의 역할 확산 모델에서는 데이터의 생성 과정이 다음과 같은 두 가지 단계로 이루어집니다: Forward Process (정방향 과정): 원본 데이터를 노이즈로 변환합니다. Reverse Process (역방향 과정): 노이즈에서 데이터를 복원합니다. 역방향 과정은 확률 흐름 ODE(PF-ODE)를 풀어야 하며, 이를 통해 데이터 분포를 점진적으로 복원합니다. 그러나 이 방정식을 정확히 푸는 것은 복잡하고 계산 비용이 큽니다. 그래서 ODE 솔버를 사용하여 방정식을 근사적으로 푸는 것입니다.
Inner toggle -2-
Inner toogle contents -2-

 

 


 

6. 결론

  • 논문의 결론:
    • "LCM은 기존 방법 대비 빠르고 효율적인 고해상도 이미지 생성을 가능하게 합니다."
    • "미래 연구 방향으로 이미지 편집, 초해상도 작업으로의 확장 가능성을 제시합니다."
  • 논문의 마지막 부분에서는 잠재 일관성 모델의 중요한 발견과 연구 결과에 대한 요약을 제공합니다. 또한, 이 모델이 미래의 고해상도 이미지 생성 작업에 어떻게 기여할 수 있는지에 대한 전망을 제시합니다. 연구 기여도를 요약하며, 실험 결과에 기반한 LCM의 실용적 잠재력을 강조합니다.