[2026-1] 김지은 - Image Super-Resolution via Iterative Refinement

본 글에서는 기존 GAN 기반의 Super-Resolution이 불안정하고 artifact가 생긴다는 문제를 해결하기 위해 DDPM을 활용해 저해상도 이미지를 Super-Resolution하는 새로운 방법을 제안한 SR3를 살펴본다.

1. Introduction

Single-image super-resolution은 하나의 저해상도 이미지에 대해 여러 개의 가능한 고해상도 결과가 존재하는 multi-modal inverse problem이다. 단순 regression 기반 방법은 평균을 예측하기 때문에 고배율에서 blur가 발생하며, GAN, VAE, AR 모델은 각각 학습 불안정성, 샘플 품질 한계, 높은 계산 비용 등의 문제를 가진다.

SR3는 이러한 한계를 해결하기 위해 Diffusion Model 기반의 iterative refinement 방식을 제안한다. Gaussian noise에서 시작해 여러 단계에 걸쳐 점진적으로 노이즈를 제거하며 고해상도 이미지를 생성하며, GAN과 달리 명확한 loss를 최소화하는 안정적인 학습이 가능하다.

또한 SR3는 해상도와 무관하게 고정된 inference step을 사용하고, 64→256→1024와 같은 cascaded 구조로 확장 가능하다. 자동 지표(PSNR, SSIM) 대신 human 2AFC 평가를 수행한 결과, 8× 얼굴 초해상화에서 인간 fool rate ≈50%를 달성하여 기존 GAN 기반 방법을 크게 능가했다.

결론적으로 SR3는 diffusion을 조건부 생성 문제에 성공적으로 적용하여, 안정성과 사실감을 동시에 확보한 초해상화 모델이다.

2. Conditional Denoising Diffusion Model

데이터: $D = \{(x_i, y_i)\}_{i=1}^N$

목표: $p(y \mid x)$ 근사

$x$: low-resolution image
$y$: high-resolution image

이 문제는 one-to-many mapping (multi-modal)으로, SR3는 이를 확률적 iterative refinement 과정으로 모델링한다.

2.1 Gaussian Diffusion Process

Forward Markov chain - 먼저 고해상도 이미지$y_0$에 점점 노이즈를 추가한다.

0 < $\alpha_t$< 1
점점 Gaussian noise 증가

Direct marginal form

이 때 $\gamma_t = \prod_{i=1}^t \alpha_i$

즉,

$y_t = \sqrt{\gamma_t} y_0 + \sqrt{1-\gamma_t}\,\epsilon$
$\epsilon \sim \mathcal{N}(0, I)$

2.2 Optimizing the Denoising Model

목표: noisy image에서 noise $\epsilon$ 예측

네트워크: $f_\theta(x, y_t, \gamma)$

입력:

$x$ (low-res image)
noisy high-res image $y_t$
noise level $\gamma$

Training Objective

$p \in \{1,2\}$
noise regression objective

➡️ 즉, 네트워크는 “노이즈 예측기”를 학습한다.

2.3 Inference via Iteratie Refinement

시작점: $y_T \sim \mathcal{N}(0, I)$
reverse Markov chain: $p_{\theta}(y_{t-1} \mid y_t, x) = \mathcal{N}\!\left(\mu_{\theta}(x, y_t, \gamma_t), \sigma_t^2 I \right)$

Step 1: $y_0$ 추정
\[\hat{y}_0=\frac{1}{\sqrt{\gamma_t}}\left(y_t-\sqrt{1-\gamma_t}\,f_{\theta}(x, y_t, \gamma_t)\right)\]

Step 2: Mean 계산
\[\mu_{\theta}(x, y_t, \gamma_t)=\frac{1}{\sqrt{\alpha_t}}\left(y_t-\frac{1-\alpha_t}{\sqrt{1-\gamma_t}}f_{\theta}(x, y_t, \gamma_t)\right)\]
이 때, 분산은 \[\sigma_t^2 = 1 - \alpha_t\]
최종 update 식
\[y_{t-1}=\frac{1}{\sqrt{\alpha_t}}\left(y_t-\frac{1-\alpha_t}{\sqrt{1-\gamma_t}}f_{\theta}(x, y_t, \gamma_t)\right)+\sqrt{1-\alpha_t}\,\epsilon_t\]
\[\epsilon_t \sim \mathcal{N}(0, I)\]

➡️ 이것이 iterative refinement 한 step으로, 이 과정은 Langevin dynamics와 유사하다.

2.4 SR3 Model Architecture and Noise Schedule

[ 모델 구조 ]

U-Net 기반, BigGAN residual block 사용, skip connection rescale

conditioning 방법:

low-res 이미지를 bicubic으로 upsample
noisy image와 channel-wise concat

[ Noise schedule ]

훈련 시:

$t \sim \text{Uniform}\{1,\ldots,T\}$
$\gamma \sim U(\gamma_{t-1}, \gamma_t)$

논문에서 T = 2000

[ Inference 개선 ]
기존 diffusion은 1000~2000 step이 필요했던 것에 비해, SR3는 γ를 직접 conditioning하고, inference noise schedule 조정 가능하며, 최대 100 step으로 inference를 하기 때문에 훨씬 빠른 생성 가능

3. Related Work

기존 생성 모델들은 초해상화에 활용되어 왔지만 각각 한계를 가진다. Autoregressive 모델은 정확한 likelihood를 모델링할 수 있으나 고해상도에서 계산 비용이 매우 크다. Normalizing Flow는 샘플링이 빠르지만 invertible 구조 제약으로 표현력이 제한된다. VAE는 빠르지만 이미지 품질이 상대적으로 낮다. GAN은 고품질 이미지를 생성할 수 있으나 학습이 불안정하고, 초해상화에서는 mode collapse를 방지하기 위한 추가 consistency loss가 필요하다.

Score matching과 diffusion 모델은 데이터 분포의 gradient를 학습하여 고품질 이미지를 생성할 수 있으며, 최근 unconditional generation에서 뛰어난 성능을 보였다. SR3는 이러한 diffusion 기반 접근을 조건부(super-resolution) 생성 문제로 확장한 모델이다.

초해상화 분야에서는 기존에 MSE 기반 regression 방법이 주류였으나, 이는 posterior mean을 추정하기 때문에 multi-modal 분포에서 blur를 유발한다. 반면 SR3는 반복적 refinement를 통해 posterior mean이 아니라 posterior sample을 생성함으로써 더 풍부한 고주파 디테일을 복원한다.

결론적으로 SR3는 기존 GAN·AR·Flow 기반 초해상화의 한계를 보완하며, diffusion 기반 반복 정제 방식으로 고해상도 이미지를 안정적으로 생성한다.

4. Experiments

정성적 결과를 살펴보면, 자연 이미지 및 얼굴 이미지에서 SR3가 입력을 충실히 따르면서도 기존 Regression 모델에 비해 훨씬 선명하고 세밀한 디테일을 생성하는 것을 알 수 있습니다. 특히 머릿결이나 질감 표현에서 두드러진 차이를 보입니다.

PSNR 및 SSIM: SR3는 PULSE나 FSRGAN보다는 높은 점수를 기록했으나, 보수적인 예측을 하는 Regression 베이스라인보다는 낮게 측정되었습니다. 이는 기존 지표들이 실제 인지 품질보다는 타겟 이미지와의 픽셀 단위 일치도에 집중하기 때문입니다.
- PSNR: 복원된 이미지가 원본과 얼마나 가까운지를 측정하는 픽셀 단위 오차 기반 지표
- SSIM: 두 이미지의 밝기, 대비, 구조 유사성을 측정하는 지각 기반 지표

Consistency: 다운샘플링된 출력물과 저해상도 입력 간의 MSE를 측정한 결과, SR3는 가장 낮은 오차를 기록하며 GAN 기반 방법들보다 일관성이 뛰어남을 입증했습니다.
Classification Accuracy: 4배 확대된 자연 이미지에 대한 ResNet-50 분류 에러를 측정한 결과, SR3는 기존의 모든 모델보다낮은 Top-1 및 Top-5 에러를 달성하여 높은 품질을 보였습니다.

Fool Rate: 사람들이 실제 이미지와 모델 생성 이미지를 구분하는 실험에서 SR3는 얼굴 슈퍼 해상도 작업 시 50%에 가까운 fool rate를 달성했습니다. 이는 사람들이 실제 사진과 생성된 이미지를 거의 구분하지 못함을 의미하며, GAN 기반 모델(최대 34%)보다 개선된 결과입니다. 나아가 자연 이미지 실험에서도 약 40%의 높은 fool rate를 기록하며 다른 모델 대비 압도적인 성능을 보였습니다. (Figure 6 & 7 참고)

Cascade 이미지 합성에서 단계적 모델 연결 방식이 단일 모델 방식보다 효율적이며 우수한 품질을 제공한다는 점을 확인할 수 있었습니다. ImageNet 256x256 생성 작업에서는 11.3의 FID 점수를 기록하여 BigGAN과 대등한 수준의 성능을 입증했습니다

5. Discussion and Conclusion

한계

: SR3 역시 모든 생성 모델과 마찬가지로 bias 문제를 가집니다. 이론적으로는 log-likelihood 기반 objective이 mode-covering 특성을 가지지만, 실제로는 mode dropping 현상이 관찰되었습니다. 동일한 입력에 대해 거의 유사한 결과를 반복 생성하거나, 얼굴 초해상화에서 점, 주근깨, 피어싱 같은 세부 요소를 제거하고 매끄러운 피부로 생성하는 경향이 나타났습니다. 따라서 이러한 편향이 충분히 이해되고 완화되기 전까지는 실제 응용에 신중해야 한다고 이야기합니다.

결론

: SR3는 diffusion 기반의 iterative refinement 초해상화 모델로 Cascaded 구조를 통해 64×64→256×256→1024×1024와 같은 고해상도 확장이 가능하며, 얼굴 및 자연 이미지 모두에서 강력한 성능을 보였습니다. 특히 인간 평가에서 약 50%의 fool rate를 달성하여, 높은 수준의 사실감을 표현할 수 있음을 증명했습니다.

'CV' 카테고리의 다른 글

[2026-1] 김지원 - Learning Transferable Visual Models From Natural Language Supervision (0)	2026.04.18
[2026-1] 정재훈 - AnEmpirical Evaluation of Geeric Convolutional and Recurrent Networksfor Sequence Modeling (0)	2026.03.28
[2026-1] 김지은 - Denoising Diffusion Implicit Models (0)	2026.02.07
[2025-2] 김효민 - U-Net: Convolutional Networks for Biomedical Image Segmentation (0)	2026.01.31
[2025-2] 김지은 - DN-DETR: Accelerate DETR Training by Introducing Query DeNoising (1)	2026.01.17