본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2023-2] 김경훈 - Latent Consistency Models: Synthesizing High-Resolution Images wi

by Theron 2024. 1. 23.

원본 논문 링크 : https://arxiv.org/abs/2310.04378

Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

Latent Diffusion models (LDMs) have achieved remarkable results in synthesizing high-resolution images. However, the iterative sampling process is computationally intensive and leads to slow generation. Inspired by Consistency Models (song et al.), we prop

arxiv.org

 
PDF 다운로드 : 

LCM.pdf
15.20MB

 
 
 


 
<선 요약>
LCM(컨시스턴시 모델)은 생성 속도를 높이고자 하는 목적에서 출발한 모델로, 고해상도 이미지를 더 빠르게 생성하고자 하는 노력이 돋보입니다. 기존의 디퓨전 모델은 단계를 여러 번 거쳐 이미지를 생성하는데, LCM은 이러한 단계를 축소하여 빠르게 고품질 이미지를 얻고자 합니다.

LCM은 역 디퓨전과정에서 수식을 통해 특정 부분을 대체함으로써 이미지 생성 속도를 향상시킵니다. 이는 기존의 미분 방정식을 푸는 과정을 더 효율적으로 처리함으로써 가능해졌습니다. 특히, probability flow 기반의 미분 방정식을 대체하여 학습을 가속화하고 높은 품질의 이미지를 빠르게 생성할 수 있었습니다.

기존의 방식은 수십 번의 스텝이 필요했지만, LCM을 활용하면 몇 번의 스텝만으로도 고퀄리티 이미지를 생성할 수 있습니다. 이로써 빠른 추론이 가능하며, 텍스트를 실시간으로 입력하여 즉각적인 이미지 생성이 가능해졌습니다.

LCM은 또한 로랭크 어댑테이션을 활용하여 큰 모델을 미세 조정하여 사용하는데, 이것은 기존 모델에 적은 수정만으로 LCM을 적용할 수 있다는 장점이 있습니다. 디스틸레이션을 통해 작은 모델로 미세 조정함으로써, 빠른 생성 속도와 높은 품질의 이미지를 동시에 얻을 수 있게 되었습니다.

총평하자면, LCM은 디퓨전 모델의 한계를 극복하고자 하는 의지에서 출발하여, 빠른 생성과 높은 품질을 동시에 실현하는 혁신적인 모델로 평가됩니다. 이로써 실시간 이미지 생성의 가능성이 크게 높아졌으며, 다양한 예제들을 통해 LCM의 성능을 확인할 수 있습니다.

 

 
 
 


이 논문은 2023년 10월 6일에 나온 논문입니다.

▲ 4-Steps Inference

2-Steps Inference
 

1-Steps Inference
 
 

<설명>

Diffusion 모델은 다양한 도메인에서 강력한 생성 모델로 주목을 받아왔습니다. 특히 Stable Diffusion과 같은 latent diffusion model (LDM)은 고해상도 text-to-image 합성 작업에서 뛰어난 성과를 보여주었습니다. 그러나 diffusion 모델의 주요 단점은 반복적인 역 과정으로 인해 생성 속도가 느려지고 실시간 적용이 제한된다는 것입니다. 이 한계를 극복하기 위해 연구자들은 ODE solver를 향상시키고 사전 학습된 diffusion 모델을 몇 단계 추론이 가능한 모델로 압축(distill)하는 등 여러 방법을 제안해왔습니다.

빠른 고해상도 이미지 생성을 위한 유망한 대안으로 Consistency Model (CM)이 최근에 제안되었습니다. CM은 ODE 궤적에서 점 일관성을 유지하는 일관성 매핑을 학습하여 단일 단계 생성을 가능케 하여 계산 집약적인 반복이 필요하지 않습니다. 그러나 CM은 픽셀 공간 이미지 생성에만 국한되어 있어 고해상도 이미지를 합성하는 데는 적합하지 않습니다. 또한 조건부 diffusion 모델에 대한 적용과 분류기 없는 가이드의 통합에 대한 연구가 이루어지지 않아 text-to-image 합성에는 부적절합니다.

본 논문에서는 Latent Consistency Model (LCM)을 소개합니다. LDM을 반영하여 Stable Diffusion의 사전 학습된 오토인코더 이미지 latent space에 consistency model을 적용합니다. 저자들은 증강된 PF-ODE를 해결하여 사전 학습된 guided diffusion model을 효율적으로 latent consistency model로 변환하는 1단계 guided distillation 방법을 제안합니다. 또한 사전 학습된 LCM을 fine-tuning하여 맞춤형 이미지 데이터셋에 대한 few-step 추론을 지원하는 Latent Consistency Finetuning을 제안합니다.

 
 
Stable Diffusion (SD)과 같은 대규모 diffusion model에서 이미지 latent space를 활용하면 이미지 생성 품질이 효과적으로 향상되고 계산 부하가 줄어든다. SD에서 오토인코더 (E,D)는 먼저 높은 차원의 이미지 데이터를 낮은 차원의 latent 벡터 z=E(x)로 압축하도록 학습된 다음 이미지를 x^ =D(z)로 재구성하기 위해 디코딩된다. Latent space에서 diffusion model을 학습시키면 픽셀 기반 모델에 비해 계산 비용이 크게 줄어들고 inference 속도가 빨라진다. LDM을 사용하면 노트북 GPU에서 고해상도 이미지를 생성할 수 있다. LCM의 경우 CM에 사용되는 픽셀 공간과 대조적으로 consistency distillation을 위해 latent space의 이점을 활용한다. Latent Consistency Distillation (LCD)라고 하는 이 접근 방식은 사전 학습된 SD에 적용되어 1~4 step으로 고해상도 (ex. 768××768) 이미지를 합성할 수 있다. 본 논문은 조건부 생성에 중점을 둔다. Reverse process의 PF-ODE는 다음과 같다.
 

 
Consistency Models 참고 링크 : https://ostin.tistory.com/192

Consistency Models

OpenAI에서 공개한 자기 일관성을 통해 학습하는 모델 One-step으로 꽤 괜찮을 품질의 이미지를 생성할 수 있는 것이 인상적. Github arXiv Abstract 확산 모델은 많은 진전을 이루었지만 느린 샘플링 속도

ostin.tistory.com

 
 
 1. 서론: 이 부분에서는 확산 모델, 특히 잠재 확산 모델의 중요성과 고품질 이미지 생성에 있어서의 능력을 강조합니다. 또한, 이러한 모델들의 주요 단점인 느린 생성 속도와 그로 인한 실시간 적용의 한계를 언급하며, 이를 극복하기 위한 다양한 시도들에 대해 설명합니다.

2. 관련 연구: 이 섹션은 기존 확산 모델과 잠재 확산 모델에 대한 기존 연구들을 검토합니다. 특히, 이미지 생성 속도를 개선하기 위한 다양한 기술적 접근법과 이러한 접근법들의 한계점들을 탐구합니다.

3. 예비 연구: 여기서는 확산 모델의 기본 원리와 일관성 모델의 개념에 대해 설명합니다. 이는 잠재 일관성 모델의 이해를 돕기 위한 기초적인 배경 지식을 제공합니다.

4. 잠재 일관성 모델: 이 섹션은 논문의 핵심 개념인 잠재 일관성 모델을 소개하고, 이 모델이 기존의 확산 모델과 어떻게 다른지 설명합니다. 모델의 구조와 기능, 그리고 이를 통한 이미지 생성 과정의 개선 방법에 대해 자세히 다룹니다.

5. 실험: 다양한 실험을 통해 잠재 일관성 모델의 성능을 평가합니다. 이 부분에서는 모델이 생성한 이미지의 품질, 생성 속도, 그리고 다양한 설정에서의 효율성 등을 분석합니다.

6. 결론: 논문의 마지막 부분에서는 잠재 일관성 모델의 중요한 발견과 연구 결과에 대한 요약을 제공합니다. 또한, 이 모델이 미래의 고해상도 이미지 생성 작업에 어떻게 기여할 수 있는지에 대한 전망을 제시합니다.