[2025-1] 전윤경- Multimodal Unsupervised Image-to-Image Translation

Introduction

비지도 image-to-image translation : 이미지 pairing 없이도 소스 이미지에서 타겟 스타일로 변환

MUNIT: 입력 이미지가 있으면 여러 가지 스타일로 변환 가능

가정

1. 이미지의 잠재 공간-> 콘텐츠 공간(content space), 스타일 공간(style space) 으로 분해

2. 서로 다른 도메인의 이미지들은 공통된 콘텐츠 공간 을 공유하지만, 스타일 공간은 공유하지 않음

3. 소스 이미지를 타겟 도메인으로 변환할 때, 콘텐츠 코드를 유지한 채, 타겟 스타일 공간에서 무작위로 샘플링한 스타일 코드와 결합

콘텐츠(content): 이미지의 기본적인 공간적 구조
스타일(style): 콘텐츠의 렌더링 방식

콘텐츠 코드(content code) : 변환 과정에서 보존해야 할 정보를 인코딩
스타일 코드(style code) : 입력 이미지에 포함되지 않은 나머지 변화를 나타냄

MUNIT의 장점

다양하고 다중 모드적인(multimodal) 변환 결과 를 생성
SOTA 기법 대비 우수한 성능
사용자가 원하는 스타일 예제 이미지를 제공함으로써 변환 결과의 스타일을 조정 할 수 있음

Related work

GAN : 생성자(generator)가 판별자(discriminator)를 속이도록 훈련 -> GAN을 활용하여 변환된 이미지의 분포를 타겟 도메인의실제 이미지 분포와 정렬하는 역할

BicycleGAN :연속적이고 다변적인(multimodal) 변환 결과를 모델링, 이미지 쌍 필요, 완전 비지도 학습 불가능
CycleGAN: 서로 다른 두 개의 도메인 간에서 이미지를 변환할 수 있도록 설계된 GAN 모델 (unimodal)
UNIT : 두 도메인의 대응 이미지가 동일한 잠재 코드에 매핑된다는 가정

변환결과의 다양성 부족, 일반적으로 결정론적 또는 단일 모드 매핑을 가정 ->한정된 개수의 변환 결과만 생성

style transfer: 이미지의 콘텐츠를 유지하면서 스타일을 변경하는 기법

예제 기반 스타일 전이(Example-guided style transfer): 변환될 스타일이 단일 예제 이미지에서 결정됨
컬렉션 스타일 전이(Collection style transfer): 변환될 스타일이 여러 개의 스타일 이미지 집합에서 결정됨

MUNIT

x₁ ∈ X₁ 및 x₂ ∈ X₂ : 서로 다른 두 이미지 도메인의 이미지

xᵢ ∈ Xᵢ : 두 도메인이 공유하는 내용(content) 코드 c ∈ C, 각 도메인에 고유한 스타일(style) 코드 sᵢ ∈ Sᵢ에서 생성된다고 가정

G*: 생성함수(generator), 결정론적 / E*: 역인코더

image-to-image translation: encoder 와 decoder를 swap

x₁에서 content latent code(c₁)를 추출하고, 사전 분포 q(s₂) ∼ N(0, I)에서 style latent code (s₂)를 무작위로 샘플링

사전 분포 q(s₂)는 단일 모드이지만, 디코더의 비선형성 덕분에 출력 이미지 분포는 다중 모달특성을 가짐

손실함수

1. Bidirectional Reconstruction Loss: 인코더와 디코더가 서로 역함수가 되도록 학습

이미지 재구성 손실

잠재 코드 재구성 손실

2. Adversarial Loss: 변환된 이미지가 타겟 도메인의 실제 이미지와 구별되지 않도록 학습

D₂: 변환된 이미지와 실제 이미지를 구별하는 판별자

최종 손실 함수

이론적 속성

인코딩 및 생성 과정에서 잠재 분포의 일치
본 프레임워크가 유도하는 두 개의 결합 이미지 분포의 일치
약한 형태의 순환 일관성 제약이 적용됨

Experiment

content encoder: downsampling 을 위한 convolution layer+ residual blocks (instance normalization)
style encoder: convolution layer+ global average pooling layer+ fullyconnected layer(instance normalization은 중요한 스타일 정보를 나타내는 평균과 분산을 제거하기 때문에 X)
Decoder: 업샘플링 및 컨볼루션 레이어를 통해 재구성된 이미지를 생성

스타일 코드로부터 MLP으로 동적으로 생성된 매개변수를 갖는 적응형 인스턴스 정규화(AdaIN) 레이어를 잔여 블록에 장착

z: 활성화 값

μ, σ 채널별 평균 및 표준 편차

와 β: MLP로부터 생성된 매개변수

평가지표

인간 선호도 : 입력 이미지와 서로 다른 방법으로부터 생성된 두 개의 번역 출력을 제공-> 더 정확해 보이는 번역 출력을 선택하는 데 무제한의 시간
LPIPS 거리: 무작위 샘플링된 번역 출력 쌍 간의 평균 LPIPS 거리를 계산 ->이미지 간의 유사성을 측정하는 지표
조건부 인셉션 점수: 모델의 품질, 샘플의 다양성
- CIS: 단일 입력 이미지에 조건부된 출력의 다양성 -> 다양성
- IS: 모든 출력 이미지의 다양성을 측정 -> 품질

Results

Quality: human preference score, diversity: LPIPS distance

UNIT, CycleGAN: 다양한 출력 생성 X
BicycleGAN과 유사하게 다양하고 현실적인 이미지 생성

'Computer Vision' 카테고리의 다른 글

[2025-1] 박서형 - DemoFusion: Democratising High-Resolution Image Generation With No $$$ (0)	2025.02.22
[2025-1] 임수연 - Mask R-CNN (0)	2025.02.22
[2025-1] 최민서 - Denoising Diffusion Implicit Models (0)	2025.02.21
[2025-1] 주서영 - Flow matching for generative modeling (0)	2025.02.20
[25-1] 박지원 - Deep-Emotion: Facial Expression RecognitionUsing Attentional Convolutional Network (1)	2025.02.19