카테고리 없음

[2025-1] 박서형 - DemoFusion: Democratising High-Resolution Image Generation With No $$$

ejrwlfgksms skffkddl 2025. 2. 22. 13:03

https://arxiv.org/abs/2311.16973

 

DemoFusion: Democratising High-Resolution Image Generation With No $$$

High-resolution image generation with Generative Artificial Intelligence (GenAI) has immense potential but, due to the enormous capital investment required for training, it is increasingly centralised to a few large corporations, and hidden behind paywalls

arxiv.org

 

1. Abstract

high-resolution image 생성을 위한 GenAI는 높은 잠재력을 가지지만 훈련에 막대한 비용이 필요하다. 본 논문에서는 Latent Diffusion Models를 이용하여 이미지 생성을 democratize하는 DemoFusion 프레임워크를 제시했다. 이는 Progressive Upscaling, Skip Residual, Dilated Sampling를 적용하여 기존의 모델보다 높은 해상도를 제공하면서 추가 훈련을 필요로 하지는 않는다는 장점을 가진다. 

 

 

 

2. Inroduction

DemoFusion은 SDXL을 기반으로 소비자용 GPU만으로 4096² 이상의 해상도를 생성할 수 있다. 이는 기존의 SDXL이 직접적으로 높은 해상도를 생성하는 데는 실해파지만 패치 단위로 부분적인 고해상도 정보를 생성할 수는 있다는 점을 이용해 설계되었다. 

 

 

 

3. Methodology

 

1) Latent Diffusion Model

이미지 x를 pre-trained된 autoencoder의 encoder에 넣어 latent space, z = E(x) 를 생성한다. 그리고 이 latent space에서 diffusion과 denosing process를 수행한다. 이때 diffusion 단계에서는 T 단계 동안 gaussian noise를 점진적으로 추가하고 denosing 단계에서는 noise를 제거하여 원본 이미지를 재구성한다. 

diffusion process

 

denosing process

 

 

2) MultiDiffusion

SDXL과 같은 LDM을 확장하여 high-resolution panorama image를 생성하는 기법이다. 이때 기존 latent space를 확장하여 패치 단위로 복원 과정을 수행한다. 이때 패치가 개별적으로 복원되다 보니 global context를 제대로 고려하지 못한다는 문제를 해결하기 위해 Progressive Upscaling, Skip Residual, Dilated Sampling를 이용해 DemoFusion을 만들어냈다.

 

 

 

3) Progressive Upscaling

 

3. denosing process를 통해 z(0)_(s)를 얻는다. 

 

K배로 확대된 resolution의 이미지를 생성할 때 scaling factor는 S =

 

 

 

4) Skip Residual

z(0)_(s)를 z'(T)_(s)로 직접 diffuse하면 대부분의 정보가 소실되므로 중간 timestep t로 diffuse하여 denoise를 시행하는데 이때 최적의 t를 찾는 것이 쉽지 않다.

 

t가 클수록 -> 더 많은 정보 소실

t사 작을수록 -> upsampling으로 인해 발생하는 noise 증가

 

따라서 이 문제를 해결하기 위해 이전 단계의 결과를 이용하여 denoising process 초기의 단계에서 생성된 이미지 정보를 반영할 수 있게 하여 세밀한 디테일을 표현하게 한다. 

 

 

5) Dilated Sampling

추가적으로 dilated sampling을 도입하여 global context를 더 잘 반영할 수 있게 한다. 이는 latent space 내에서 sampling을 직접 확장하여 수행된다. 이를 통해 생성된 global representation을 재구성하여 또 다른 재구성된 local representation과 융합하면 최종 latent representation을 만들어낼 수 있다. 

 

 

 

 

 

4. Experiment

다음은 다른 모델들과의 성능 비교를 한 표이다. 

 

기존의 모델보다 더 자연스럽고 디테일한 고해상도 이미지 생성이 가능한 걸 볼 수 있고 특히 MultiDiffusion의 한계를 보완하여 global context를 더 잘 반영하는 데 강점을 가진다. 물론 여전히 배경에서 반복패턴을 조금 보인다는 한계를 가지고는 있다.