[2025-1] 박서형 - PSGAN ( Pedestrian-Synthesis-GAN: GeneratingPedestrian Data in Real Scene and Beyond )

ejrwlfgksms skffkddl 2025. 5. 17. 15:27

https://arxiv.org/abs/1804.02047

Pedestrian-Synthesis-GAN: Generating Pedestrian Data in Real Scene and Beyond

State-of-the-art pedestrian detection models have achieved great success in many benchmarks. However, these models require lots of annotation information and the labeling process usually takes much time and efforts. In this paper, we propose a method to ge

arxiv.org

1. Introduction

Pedestrian detection 분야에서 CNN 기반 model들이 뛰어난 성능을 보이지만 training dataset의 annotation 품질과 다양성에 크게 의존한다. 특히 annotation이 부족하거나 새로운 환경에 적용할 때 문제가 발생하게 된다. 이 문제를 해결하기 위해 GAN을 이용하여 real background에 pedestrian을 자연스럽게 합성하는 PS-GAN이라는 새로운 방법을 제안한다. 이 방법은 아래와 같은 특징을 가진다.

bounding box 영역의 pedestrian을 random noise로 대체한 뒤, GAN의 generator가 해당 영역에 자연스러운 pedestrian을 생성하도록 학습하는 구조
배경의 자연스러움과 pedestrian의 realism을 각각 학습하는 두 개의 discriminator(Db, Dp)를 사용
다양한 크기의 synthetic pedestrian을 효과적으로 처리하기 위해 discriminator에 Spatial Pyramid Pooling을 적용

실험을 통해 확인한 결과 PS-GAN이 생성한 data를 실제 data와 결합하여 CNN 기반 detector를 training할 경우 detection 성능과 안정성이 모두 향상되는 것을 볼 수 있었다. 이 모델은 synthetic data를 생성하는 data augmentation을 수행하여 pedestrian detection 분야의 발전에 기여한 점에서 의의가 있다.

2. Related Work

1) Pedestrian Detection

Pedestrian detection은 위한 data augmentation을 수행하기 위해서는 Pedestrian의 distribution (이미지의 위치, 크기,형태,맥락)을 알아야 하는데 기존의 방식은 hand crafted rule, 즉 사람이 직접 사전 지식과 경험을 바탕으로 규칙을 만들어 pedestrian의 위치나 형태를 결정하는 방법을 이용한다. 그런데 이는 실제 현실의 다양한 상황이나 복잡성을 정확히 반영하기 어렵다는 한계가 있고 사람이 정의한 규칙에 없는 복잡한 상황이 등장하면 대응하기 어렵다는 단점이 존재한다. 그래서 PSGAN은 data-driven 방식을 채택한다. 이 방식은 사람이 직접 규칙을 정의하는 대신, 실제 데이터로부터 자동으로 규칙과 패턴을 학습하여 현실적이고 복잡한 상황에서 강력한 성능 발휘할 수 있다.

2) Generative Adversarial Network

본 논문의 GAN 모델은 Pix2Pix GAN을 참조하여 구성되었는데 이 모델은 paired training sample을 이용하여 견고한 결과를 내는 장점이 있다. 이때 PSGAN은 pedestrian 위치를 bounding box label로 활용할 수 있도록 Pix2Pix GAN과 유사한 paired training 방식을 채택하되, 여러 개의 discriminator를 활용하여 더욱 사실적인 pedestrian을 생성한다는 차별성을 지닌다. 또한 기존의 image in-painting 기술이 단색 영역(monochromatic area)을 채우는 작업에 중점을 두는 반면, 본 연구에서는 noise 영역을 활용해 다양한 모양과 색상을 가진 pedestrian을 생성하는 것이 특징이다. 본 모델은 특히 pedestrian이 위치할 background의 context 정보를 학습하면서 pedestrian의 형태적 다양성까지 확보할 수 있도록 설계되었다는 점에서 기존 연구와 구분되는 특징을 가진다.

3. Pedestrian-Synthesis-GAN

일반적인 GAN은 Generator (GG)가 이미지를 생성하고, Discriminator (DD)가 생성된 이미지가 진짜(real)인지 가짜(fake)인지를 판단하여 두 모델이 경쟁하는 형태를 가진다. 그러나 PS-GAN은 일반적인 GAN과 달리 두 개의 별도 discriminator를 가진다.

Background discriminator (Db) : pedestrian 이미지가 주변 배경과 자연스럽게 잘 어우러졌는지를 판단
Pedestrian discriminator (Dp) : pedestrian 자체가 얼마나 진짜(real) pedestrian처럼 보이는지 판별

1) Model architecture

Generator G

보행자가 없는 이미지(x)에 보행자(y)를 자연스럽게 합성하는 모델

U-Net을 기반으로 한 encoder-decoder 구조
입력 이미지를 점점 압축해서 bottleneck(잠재 표현)에 담은 뒤, 이를 다시 복원하는 식으로 이미지를 생성
skip connection을 통해 압축 전의 세부 정보도 함께 사용

Discriminator Dp

생성된 보행자(pedestrian)가 진짜처럼 보이는지 판단

총 5개의 합성곱 층 + LeakyReLU + BatchNorm
입력되는 보행자 이미지 크기가 제각각이기 때문에, SPP(Spatial Pyramid Pooling) 구조를 도입
- 다양한 크기의 입력을 고정된 feature vector로 변환
- 1×1, 2×2, 4×4 크기로 pooling → 총 21개 bin → feature vector
마지막에는 PatchGAN loss 적용: 이미지를 전체적으로 보기보다는 부분 패치별로 진위 판별

Discriminator Db

보행자가 주변 배경과 자연스럽게 어우러졌는지 판별

입력 쌍: 진짜 쌍(원래 노이즈 이미지 x + 실제 이미지 y) + 가짜 쌍(노이즈 이미지 x + 생성된 이미지 G(x) )
구조: DCGAN 기반 구조이지만 다음과 같은 특징이 추가됨:
1. 입력 채널 수가 6개 (두 이미지를 채널 방향으로 붙임 → 3+3)
2. PatchGAN 사용 → 전체 이미지 대신 작은 패치 단위로 진짜/가짜 판별
3. LSGAN loss 사용 → 평균 제곱 오차 기반의 안정적인 학습

2) loss function

- LSGAN

생성된 이미지가 전체적으로 자연스럽게 배경과 어우러지도록 만드는데 사용

- GAN loss

진짜 같은 보행자 모양을 만들도록 하는 loss

-l1 loss

디테일 보완하는 loss

- final loss