카테고리 없음

[2025-1] 박서형 - StyleGAN : A Style-Based Generator Architecture for Generative Adversarial Networks

ejrwlfgksms skffkddl 2025. 5. 3. 13:54

https://arxiv.org/abs/1812.04948

 

A Style-Based Generator Architecture for Generative Adversarial Networks

We propose an alternative generator architecture for generative adversarial networks, borrowing from style transfer literature. The new architecture leads to an automatically learned, unsupervised separation of high-level attributes (e.g., pose and identit

arxiv.org

 

 

0. Abstract

 

본 논문은 style transfer 기법을 차용하여 GAN을 위한 generator 아키텍쳐를 제안한다. 이 방식은 unsupervised 방식으로 1) high level attributes (포즈나 정체성 같이 큰 구조를 결정하는 특성)과 2) stochastic variation (주근깨,머릿결 같은 무작위적 세부 요소)의 분리를 가능하게 했다. 또한 interpolation과 disentanglement 측면에서 기존 방법들보다 우수한 성능을 보였는데 본 논문은 이 두 특성을 측정할 수 있는 새로운 metrics를 제시하고 새로운 human face dataset도 소개한다는 contribution을 가진다. 

 

 

1. Introduction

 

최근 GAN의 성능은 빠르게 향상되었지만 black box로 작동한다는 문제점이 존재했다. 특히 stochastic feature들이 왜 생기는지 알 수 없고 latent space들이 어떻게 이미지를 조정하는지에 대한 이해도 부족하며 interpolation은 정량적 비교가 어렵다. 그래서 본 논문은 style transfer 기법을 활용하여 generator 구조를 새롭게 설계한다. 핵심은 랜덤 노이즈(z)를 바로 generator에 넣지 않고 중간 latent 공간(w)으로 매핑한 후 각 convolution layer마다 스타일을 따로 주입하는 것이다. 여기에 노이즈도 직접 주입하여 디테일을 조정한다. 이러면 high level attributes와 stochastic variation을 분리할 수 있고 이미지의 해상도 별로 따로 조정할 수 있어 style mixing과 interpolation이 더 직관적으로 이루어질 수 있다. 그리고 interpolation 시 이미지가 얼마나 부드럽게 변화하는지 평가하는 perceptual path length와 특정 속성이 latent space에서 직선 기준으로 나뉘는지 판단하여 disentanglement가 좋은지를 평가하는 linear separability 라는 지표를 이용해 모델 성능을 평가한다.

 

 

2. Style-based generator

 

 

기존의 input layer 대신 mapping network를 통해 latent vector w를 생성하고 이를 affine transformation에 넣어 style 벡터 y를 만들어 AdaIN에 넣어준다. AdaIN은 스타일을 주입해주는 기능을 하는데  learned constant에서 시작된 feature map을 정규화하고 스타일벡터에서 나온 값으로 다시 조정하는 방식으로 작동한다. 그리고 중간에 explicit한 noise를 input으로 넣어준다. 이를 통해  style과 노이즈 주입을 개별적으로 수행하여 구조적 특징과 세부 디테일을 독립적으로 제어할 수 있게 한다. 

 

 

3. Properties of the style-based generator

 

generator에서 mapping network와 affine transformations는 학습된 분포로부터 각 스타일에 대한 샘플을 뽑아내는 방식이고 synthesis network는 이 스타일들을 조합해 새로운 이미지를 생성하는 방식으로 작동한다. 이와 같은 방식을 통해 각 레이어에 대응하는 스타일 벡터를 개별적으로 수정하여 전체 구조나 디테일을 독립적으로 수정할 수 있다. 

 

(1) Style mixing

Style mixing은 스케일별로 스타일이 독립적으로 동작하도록 유도해 스타일을 제어하기 쉽게 한다. 이는 이미지 생성의 시작점으로 사용할 수 있는 고차원 벡터인 latent code를 2개를 사용하여 레이어별로 다른 code를 사용하여 code별 독립적인 제어가 가능해진다. 이때 코드는 crossover point에서 다른 코드로 바꿔주게 된다. 

 

(2) Stochastic variation

전통적인 방식에서는 네트워크 내부에서 노이즈를 생성해야 해서 연산량이 증가한다는 문제가 있었는데 본 논문의 아키텍쳐는 레이어별로 외부 노이즈를 입력하여 이러한 문제를 해결한다. 그리고 노이즈를 global한 특성을 바꾸는 데 사용하면 이미지가 부자연스럽게 생길 가능성이 높아지기 때문에 local한 feature만 바뀌게 하면서 global,local을 분리하여 학습할 수 있게 한다. 

 

(3) Separation of global effects from stochasticity

스타일 채널은 해당 레이어 즉 그 레이어가 다루는 픽셀 전체에 같은 방식으로 영향을 주어 global한 부분을 제어할 수 있게 하고 noise는 픽셀 단위로 서로 다른 랜덤한 값이 들어가게 하여 아주 작은 영역에서만 변화를 주게 된다. 

 

 

4. Disentanglement studies

 

다음 2가지 지표로 성능평가를 할 수 있다. 

 

(1) Perceptual path length

(2) Linear separability

 

 

5. Conclusion

스타일 기반 생성기는 전통적 GAN 구조보다 이미지 품질, 속성 분리성, 제어 가능성 모든 면에서 우수하며 제안된 분리성·경로 길이 지표를 정규화 항으로 활용하면 향후 GAN 합성 제어가 더욱 발전할 것이다.