카테고리 없음
[2025-1] 임수연 - Photo-Realistic Single Image Super-Resolution Using a Generative AdversarialNetwork
cohayuk
2025. 1. 25. 13:12
https://arxiv.org/pdf/1609.04802
1. Introduction
이번 포스팅에서는 단일 이미지 초해상도(Single Image Super-Resolution, SISR)를 위한 SRGAN (Super-Resolution Generative Adversarial Network) 논문을 살펴보겠습니다. SR은 저해상도(LR) 이미지를 고해상도(HR) 이미지로 복원하는 기술입니다.
기존의 초해상도 모델들은 MSE 기반 손실 함수를 최적화하여 해상도를 높이지만 SRGAN에서는 GAN을 적용하여 texture detail을 향상하는 방법을 제안합니다.
SRGAN의 핵심 모델로 SRGAN-VGG54가 사용되었으며 이는 VGG19의 5번째 컨볼루션 층의 4번째 활성화 출력을 기반으로 한 Perceptual Loss를 적용하여 해상도를 효과적으로 복원합니다.
2. 연구 배경 및 문제 정의
기존 방법의 한계:
- 기존 방법들은 MSE를 사용하여 PSNR 성능 최적화를 목표로 하지만, 시각적으로 blurry한 이미지를 생성.
- 텍스처, 경계선, 세부 디테일에서 손실 문제 발생.
SRGAN의 해결책:
- GAN을 활용한 SR 이미지 생성
- 새로운 Loss Function (콘텐츠 손실 + 적대적 손실)으로 시각적 품질을 개선.
3. 제안된 방법
1) SRGAN의 네트워크 구성
- 생성자(Generator):
- LR 이미지를 input으로 넣어 SR 이미지를 생성하는 역할.
- ResNet 기반의 Residual Block 사용.
- 4X 업스케일링을 위한 PixelShuffler x2 적용.
- 판별자(Discriminator):
- input 이미지가 HR/SR 인지를 판별하는 역할.
- 3x3 필터, 8개의 컨볼루션 레이어 사용.
- Dense layer와 LeakyReLU 및 시그모이드 활성화 함수를 적용하여 확률 값으로 출력.
2) 손실 함수 구성
Content Loss와 Adversarial Loss의 가중합으로 구성된 Perceptual Loss
- *콘텐츠 손실(Content Loss):
- HR 이미지의 Feature Map과 모델이 생성한 SR 이미지의 Feature Map 간의 차이를 측정.
- 원본과 비슷하게 따라하려는 목적.
- VGG의 feature map을 이용해 시각적 유사성 평가.
- 적대적 손실(Adversarial Loss):
- GAN의 생성자의 Loss 함수 공식.
- GAN의 판별자를 속이는 방향으로 학습, 생성된 이미지가 얼마나 “진짜”처럼 보이는 지를 평가.
- 이 손실을 추가하여 모델이 더 사실적인 디테일과 텍스쳐를 생성하도록 유도.
4. 실험 및 성능 분석
1) 실험 데이터셋 및 설정
- ImageNet의 HR 이미지 데이터를 다운 샘플링하여 만든 LR 이미지를 학습데이터로 사용.
- 평가 지표:
- PSNR (수치적 성능)
- SSIM (구조적 유사성)
- MOS (주관적 시각 품질) → 인간의 지각적 판단을 기준으로 점수를 매김
2) 성능 비교 결과
결과 분석
- PSNR 기준에서는 SRResNet이 최고 성능을 기록.
- SRGAN은 수치 성능이 낮으나, 시각적 평가(MOS)에서 최상의 성능.
- SRGAN이 고해상도 디테일과 질감을 잘 복원.
5. 결론
- 결론:
- SRGAN은 초해상도 이미지 복원에서 새로운 시각적 품질 기준을 설정.
- 기존 모델 대비 시각적 품질이 개선되었으며, MOS 평가에서 높은 점수를 기록.
6. 요약 및 마무리
- SRGAN은 기존의 MSE 기반 SR 접근법의 한계를 극복하기 위해 새로운 Loss Function을 도입.
- GAN을 활용하여 더 사실적인 이미지 복원을 제공.
- Perceptual Quality에 집중한 MOS 평가 방식을 도입.
- 실험 결과, SRGAN은 시각적 품질 측면에서 가장 우수한 성능을 보임.