본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Computer Vision

[2025-1] 전윤경- Multimodal Unsupervised Image-to-Image Translation

by rachel2003 2025. 2. 21.

Introduction

비지도 image-to-image translation : 이미지 pairing 없이도 소스 이미지에서 타겟 스타일로 변환

MUNIT: 입력 이미지가 있으면 여러 가지 스타일로 변환 가능

 

 

가정

1. 이미지의 잠재 공간-> 콘텐츠 공간(content space), 스타일 공간(style space) 으로 분해

2. 서로 다른 도메인의 이미지들은 공통된 콘텐츠 공간 을 공유하지만, 스타일 공간은 공유하지 않음

3. 소스 이미지를 타겟 도메인으로 변환할 때, 콘텐츠 코드를 유지한 채, 타겟 스타일 공간에서 무작위로 샘플링한 스타일 코드와 결합 

  • 콘텐츠(content): 이미지의 기본적인 공간적 구조
  • 스타일(style): 콘텐츠의 렌더링 방식
  • 콘텐츠 코드(content code) : 변환 과정에서 보존해야 할 정보를 인코딩
  • 스타일 코드(style code) : 입력 이미지에 포함되지 않은 나머지 변화를 나타냄

 

MUNIT의 장점

  • 다양하고 다중 모드적인(multimodal) 변환 결과 를 생성
  • SOTA 기법 대비 우수한 성능
  • 사용자가 원하는 스타일 예제 이미지를 제공함으로써 변환 결과의 스타일을 조정 할 수 있음

Related work

  • GAN :  생성자(generator)가 판별자(discriminator)를 속이도록 훈련 -> GAN을 활용하여 변환된 이미지의 분포를 타겟 도메인의실제 이미지 분포와 정렬하는 역할
  • BicycleGAN :연속적이고 다변적인(multimodal) 변환 결과를 모델링, 이미지 쌍 필요, 완전 비지도 학습 불가능
  • CycleGAN: 서로 다른 두 개의 도메인 간에서 이미지를 변환할 수 있도록 설계된 GAN 모델 (unimodal)
  • UNIT : 두 도메인의 대응 이미지가 동일한 잠재 코드에 매핑된다는 가정

변환결과의 다양성 부족, 일반적으로 결정론적 또는 단일 모드 매핑을 가정 ->한정된 개수의 변환 결과만 생성

 

 

style transfer: 이미지의 콘텐츠를 유지하면서 스타일을 변경하는 기법

  • 예제 기반 스타일 전이(Example-guided style transfer): 변환될 스타일이 단일 예제 이미지에서 결정됨
  • 컬렉션 스타일 전이(Collection style transfer): 변환될 스타일이 여러 개의 스타일 이미지 집합에서 결정됨

 

 

MUNIT

x₁ ∈ X₁ 및 x₂ ∈ X₂ : 서로 다른 두 이미지 도메인의 이미지

 xᵢ ∈ Xᵢ : 두 도메인이 공유하는 내용(content) 코드 c ∈ C, 각 도메인에 고유한 스타일(style) 코드 sᵢ ∈ Sᵢ에서 생성된다고 가정

G*: 생성함수(generator), 결정론적 / E*: 역인코더

image-to-image translation: encoder 와 decoder를 swap

 

 

x₁에서 content latent code(c₁)를 추출하고, 사전 분포 q(s₂) ∼ N(0, I)에서 style latent code (s₂)를 무작위로 샘플링

사전 분포 q(s₂)는 단일 모드이지만, 디코더의 비선형성 덕분에 출력 이미지 분포는 다중 모달특성을 가짐

 

손실함수

 

1. Bidirectional Reconstruction Loss: 인코더와 디코더가 서로 역함수가 되도록 학습

  •  이미지 재구성 손실

 

  • 잠재 코드 재구성 손실

 

2. Adversarial Loss: 변환된 이미지가 타겟 도메인의 실제 이미지와 구별되지 않도록 학습

 

D₂: 변환된 이미지와 실제 이미지를 구별하는 판별자

 

최종 손실 함수

 

 

이론적 속성

  • 인코딩 및 생성 과정에서 잠재 분포의 일치
  • 본 프레임워크가 유도하는 두 개의 결합 이미지 분포의 일치
  • 약한 형태의 순환 일관성 제약이 적용됨

Experiment

 

  • content encoder: downsampling 을 위한 convolution layer+ residual blocks (instance normalization)
  • style encoder: convolution layer+ global average pooling layer+ fullyconnected layer(instance normalization은 중요한 스타일 정보를 나타내는 평균과 분산을 제거하기 때문에 X)
  • Decoder: 업샘플링 및 컨볼루션 레이어를 통해 재구성된 이미지를 생성

스타일 코드로부터 MLP으로 동적으로 생성된 매개변수를 갖는 적응형 인스턴스 정규화(AdaIN) 레이어를 잔여 블록에 장착

z: 활성화 값

μ, σ 채널별 평균 및 표준 편차

 β:  MLP로부터 생성된 매개변수

 

 

평가지표

  • 인간 선호도 : 입력 이미지와 서로 다른 방법으로부터 생성된 두 개의 번역 출력을 제공-> 더 정확해 보이는 번역 출력을 선택하는 데 무제한의 시간
  • LPIPS 거리: 무작위 샘플링된 번역 출력 쌍 간의 평균 LPIPS 거리를 계산 ->이미지 간의 유사성을 측정하는 지표
  • 조건부 인셉션 점수:  모델의 품질, 샘플의 다양성
    • CIS: 단일 입력 이미지에 조건부된 출력의 다양성 -> 다양성
    • IS: 모든 출력 이미지의 다양성을 측정 -> 품질

 

Results

 

Quality: human preference score, diversity: LPIPS distance

  • UNIT, CycleGAN: 다양한 출력 생성 X
  • BicycleGAN과 유사하게 다양하고 현실적인 이미지 생성