Introduction
비지도 image-to-image translation : 이미지 pairing 없이도 소스 이미지에서 타겟 스타일로 변환
MUNIT: 입력 이미지가 있으면 여러 가지 스타일로 변환 가능
가정
1. 이미지의 잠재 공간-> 콘텐츠 공간(content space), 스타일 공간(style space) 으로 분해
2. 서로 다른 도메인의 이미지들은 공통된 콘텐츠 공간 을 공유하지만, 스타일 공간은 공유하지 않음
3. 소스 이미지를 타겟 도메인으로 변환할 때, 콘텐츠 코드를 유지한 채, 타겟 스타일 공간에서 무작위로 샘플링한 스타일 코드와 결합
|
|
MUNIT의 장점
- 다양하고 다중 모드적인(multimodal) 변환 결과 를 생성
- SOTA 기법 대비 우수한 성능
- 사용자가 원하는 스타일 예제 이미지를 제공함으로써 변환 결과의 스타일을 조정 할 수 있음
Related work
- GAN : 생성자(generator)가 판별자(discriminator)를 속이도록 훈련 -> GAN을 활용하여 변환된 이미지의 분포를 타겟 도메인의실제 이미지 분포와 정렬하는 역할
- BicycleGAN :연속적이고 다변적인(multimodal) 변환 결과를 모델링, 이미지 쌍 필요, 완전 비지도 학습 불가능
- CycleGAN: 서로 다른 두 개의 도메인 간에서 이미지를 변환할 수 있도록 설계된 GAN 모델 (unimodal)
- UNIT : 두 도메인의 대응 이미지가 동일한 잠재 코드에 매핑된다는 가정
변환결과의 다양성 부족, 일반적으로 결정론적 또는 단일 모드 매핑을 가정 ->한정된 개수의 변환 결과만 생성
style transfer: 이미지의 콘텐츠를 유지하면서 스타일을 변경하는 기법
- 예제 기반 스타일 전이(Example-guided style transfer): 변환될 스타일이 단일 예제 이미지에서 결정됨
- 컬렉션 스타일 전이(Collection style transfer): 변환될 스타일이 여러 개의 스타일 이미지 집합에서 결정됨
MUNIT
x₁ ∈ X₁ 및 x₂ ∈ X₂ : 서로 다른 두 이미지 도메인의 이미지
xᵢ ∈ Xᵢ : 두 도메인이 공유하는 내용(content) 코드 c ∈ C, 각 도메인에 고유한 스타일(style) 코드 sᵢ ∈ Sᵢ에서 생성된다고 가정
G*: 생성함수(generator), 결정론적 / E*: 역인코더
image-to-image translation: encoder 와 decoder를 swap
x₁에서 content latent code(c₁)를 추출하고, 사전 분포 q(s₂) ∼ N(0, I)에서 style latent code (s₂)를 무작위로 샘플링
사전 분포 q(s₂)는 단일 모드이지만, 디코더의 비선형성 덕분에 출력 이미지 분포는 다중 모달특성을 가짐
손실함수
1. Bidirectional Reconstruction Loss: 인코더와 디코더가 서로 역함수가 되도록 학습
- 이미지 재구성 손실
- 잠재 코드 재구성 손실
2. Adversarial Loss: 변환된 이미지가 타겟 도메인의 실제 이미지와 구별되지 않도록 학습
D₂: 변환된 이미지와 실제 이미지를 구별하는 판별자
최종 손실 함수
이론적 속성
- 인코딩 및 생성 과정에서 잠재 분포의 일치
- 본 프레임워크가 유도하는 두 개의 결합 이미지 분포의 일치
- 약한 형태의 순환 일관성 제약이 적용됨
Experiment
- content encoder: downsampling 을 위한 convolution layer+ residual blocks (instance normalization)
- style encoder: convolution layer+ global average pooling layer+ fullyconnected layer(instance normalization은 중요한 스타일 정보를 나타내는 평균과 분산을 제거하기 때문에 X)
- Decoder: 업샘플링 및 컨볼루션 레이어를 통해 재구성된 이미지를 생성
스타일 코드로부터 MLP으로 동적으로 생성된 매개변수를 갖는 적응형 인스턴스 정규화(AdaIN) 레이어를 잔여 블록에 장착
z: 활성화 값
μ, σ 채널별 평균 및 표준 편차
와 β: MLP로부터 생성된 매개변수
평가지표
- 인간 선호도 : 입력 이미지와 서로 다른 방법으로부터 생성된 두 개의 번역 출력을 제공-> 더 정확해 보이는 번역 출력을 선택하는 데 무제한의 시간
- LPIPS 거리: 무작위 샘플링된 번역 출력 쌍 간의 평균 LPIPS 거리를 계산 ->이미지 간의 유사성을 측정하는 지표
- 조건부 인셉션 점수: 모델의 품질, 샘플의 다양성
- CIS: 단일 입력 이미지에 조건부된 출력의 다양성 -> 다양성
- IS: 모든 출력 이미지의 다양성을 측정 -> 품질
Results
- UNIT, CycleGAN: 다양한 출력 생성 X
- BicycleGAN과 유사하게 다양하고 현실적인 이미지 생성