Miscellaneous
[2026-1] 이루가 - InstructPix2Pix: Learning to Follow Image Editing Instructions
wnfladl
2026. 6. 12. 22:17
논문링크: https://arxiv.org/abs/2211.09800
InstructPix2Pix: Learning to Follow Image Editing Instructions
We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the
arxiv.org
Abstract
- 목표
- 입력 이미지와 사용자의 자연어 지시를 바탕으로 이미지를 편집하는 방법 제안
- 모델은 “무엇을 변경할지” 설명하는 문장을 이해하고 해당 내용을 이미지에 반영
- 학습 데이터 생성
- 대규모 이미지 편집 데이터셋을 자동으로 구축
- GPT-3를 활용해 이미지 편집 지시문 생성
- Stable Diffusion을 활용해 지시문에 대응하는 편집 이미지 생성
- 제안 모델: InstructPix2Pix
- 생성된 데이터셋으로 학습된 conditional diffusion model
- 실제 이미지와 사용자가 직접 작성한 다양한 지시문에도 일반화 가능
- 주요 장점
- 이미지마다 별도의 fine-tuning이 필요하지 않음
- 이미지 inversion 과정이 필요하지 않음
- 한 번의 forward pass로 편집을 수행하여 수 초 내에 빠른 이미지 편집 가능
- 결과
- 다양한 입력 이미지와 편집 지시문에 대해 효과적인 이미지 편집 결과를 보여줌
1. Introduction
연구 목표
- 사용자가 작성한 자연어 지시문을 이해하고 이미지를 편집하는 생성 모델을 제안
- 입력 요소
- 원본 이미지
- 이미지를 어떻게 수정할지 설명하는 텍스트 지시문
- 출력 요소
- 사용자의 지시가 반영된 편집 이미지
기존 문제점
- 자연어 기반 이미지 편집 모델을 학습하려면 다음 요소가 쌍으로 구성된 데이터가 필요함
- 입력 이미지
- 편집 지시문
- 편집 결과 이미지
- 이러한 paired training data를 대규모로 직접 수집하는 것은 어려움
학습 데이터 생성 방법
- 서로 다른 modality에 특화된 두 개의 대규모 사전학습 모델을 결합
- GPT-3: 언어와 이미지 편집 지시문에 관한 지식 제공
- Stable Diffusion: 텍스트에 대응하는 이미지 생성
- 두 모델의 상호보완적인 지식을 활용해 이미지 편집을 위한 paired dataset을 자동 생성
- 언어와 이미지를 결합해야 하는 multimodal task의 학습 데이터를 구축
모델 학습 및 작동 방식
- 생성된 paired dataset을 사용해 conditional diffusion model 학습
- 모델은 다음 정보를 조건으로 편집 이미지를 생성
- 입력 이미지
- 텍스트 편집 지시문
- 추가적인 복잡한 과정 없이 forward pass에서 직접 이미지 편집 수행
추가로 필요하지 않은 요소
- 별도의 예시 이미지
- 입력 및 출력 이미지에 대한 상세한 전체 설명
- 이미지별 fine-tuning
- 각 이미지에 대한 별도의 최적화 과정
Zero-shot Generalization
- 학습 데이터는 지시문과 이미지가 모두 생성된 synthetic examples로 구성
- 합성 데이터만으로 학습했음에도 다음 대상에 zero-shot으로 일반화 가능
- 임의의 실제 이미지
- 사람이 자연스럽게 작성한 편집 지시문
지원하는 이미지 편집 유형
- 이미지 속 객체 교체
- 이미지 스타일 변경
- 배경이나 장소 변경
- 예술적 표현 매체 변경
- 그 외 다양한 자연어 기반 이미지 편집
핵심 의의
- 복잡한 이미지 편집 과정을 자연어 지시만으로 수행할 수 있음
- 대규모 실제 편집 데이터 없이도 사전학습 모델을 활용해 학습 데이터를 생성
- 직관적이고 빠른 범용 이미지 편집 방법을 제공

2. Prior Work
2.1 대규모 사전학습 모델의 결합
- 최근에는 하나의 모델만으로 해결하기 어려운 multimodal task를 위해 여러 사전학습 모델을 결합하는 연구가 진행됨
- 대표적인 multimodal task
- Image Captioning
- Visual Question Answering
- 이러한 작업은 언어 모델의 지식과 이미지-텍스트 모델의 지식을 동시에 필요로 함
- 기존의 사전학습 모델 결합 방법
- 새로운 task에 대한 joint fine-tuning
- Prompt를 통한 모델 간 통신
- Energy-based model의 확률분포 결합
- 한 모델의 feedback을 이용해 다른 모델을 guide
- 반복적인 최적화 수행
- 본 연구 역시 두 모델의 상호보완적인 능력을 활용
- GPT-3: 언어 및 편집 지시문 생성
- Stable Diffusion: 이미지 생성
- 기존 연구와의 차이점
- 두 모델을 직접 결합해 최종 task를 수행하는 것이 아님
- 두 모델을 이용해 paired multimodal training data를 생성
- 생성된 데이터를 별도의 이미지 편집 모델 학습에 사용
2.2 Diffusion 기반 생성 모델
- Diffusion model의 발전으로 고품질 이미지 생성이 가능해짐
- Diffusion model은 이미지뿐 아니라 다양한 modality에 활용되고 있음
- Video
- Audio
- Text
- Neural network parameters
- 최근의 text-to-image diffusion model은 임의의 텍스트 caption을 바탕으로 현실적인 이미지를 생성할 수 있음
- 대표적인 text-to-image diffusion model
- Stable Diffusion
- DALL-E 계열 모델
- 기타 대규모 diffusion 기반 이미지 생성 모델
2.3 이미지 편집을 위한 생성 모델
기존 이미지 편집 방식
- 초기 이미지 편집 모델은 주로 하나의 특정 task에 집중
- Style Transfer
- 서로 다른 image domain 간 translation
- 많은 연구가 이미지를 latent space로 변환한 뒤 편집을 수행
- 이미지를 latent space로 inversion
- Encoder를 이용해 latent vector로 변환
- StyleGAN 등의 latent vector를 조작하여 이미지 수정
- 최근에는 CLIP embedding을 이용해 텍스트로 이미지 편집을 guide하는 연구가 등장
Text2Live
- CLIP similarity objective를 최대화하도록 이미지에 추가할 layer를 최적화하는 방식
- 본 연구에서는 Text2Live를 비교 대상으로 사용
2.4 Text-to-Image Diffusion Model을 이용한 이미지 편집
- 최근에는 사전학습된 text-to-image diffusion model을 이미지 편집에 활용하는 연구가 증가
기존 방식의 문제점
- 일부 모델은 자체적으로 이미지 편집 기능을 제공
- 이미지 variation 생성
- 특정 영역 inpainting
- CLIP embedding 조작
- 그러나 text-to-image model을 이용한 정교한 편집은 어려움
- 비슷한 prompt를 입력해도 비슷한 이미지가 생성된다는 보장이 없음
- 편집하려는 부분뿐 아니라 이미지 전체가 변경될 수 있음
- 원본 이미지의 구조나 identity를 유지하기 어려움
Prompt-to-Prompt
- 유사한 text prompt로 생성되는 이미지의 attention을 조정하여 이미지 간 일관성을 유지
- 생성된 이미지에서 특정 부분만 선택적으로 수정할 수 있도록 함
- 본 연구에서는 training data 생성 과정에 Prompt-to-Prompt를 활용
SDEdit
- 실제 입력 이미지에 noise를 추가한 뒤 새로운 target prompt를 조건으로 denoising
- 기존 이미지의 구조를 일부 유지하면서 prompt에 맞게 이미지를 변경
- 본 연구에서는 SDEdit을 baseline으로 비교
기타 이미지 편집 연구
- 사용자가 mask를 직접 그린 뒤 해당 영역을 caption에 맞게 inpainting
- 소수의 이미지로 특정 객체나 concept을 학습한 뒤 새로운 이미지 생성
- 하나의 이미지를 inversion 및 fine-tuning하고 새로운 text description으로 재생성
2.5 기존 이미지 편집 방법과 본 연구의 차이
- 기존 방법들은 다음과 같은 추가 정보나 과정이 필요한 경우가 많음
- 사용자가 직접 그린 mask
- 추가적인 예시 이미지
- 입력 또는 출력 이미지 전체를 설명하는 caption
- 이미지별 inversion
- 이미지별 fine-tuning 또는 optimization
- 본 연구의 모델은 다음 두 가지 입력만 사용
- 하나의 입력 이미지
- 해당 이미지를 어떻게 변경할지 설명하는 instruction
- 편집을 한 번의 forward pass에서 직접 수행
- 이미지별 inversion이나 fine-tuning이 필요하지 않음
2.6 Instruction Following 기반 이미지 편집
- 기존 text-based image editing 방법은 주로 다음과 같은 텍스트를 입력으로 사용
- Object label
- Image caption
- 입력 이미지의 전체 description
- 출력 이미지의 전체 description
- 본 연구는 이미지에 무엇이 있어야 하는지를 설명하는 대신, 모델이 수행해야 할 편집 행동을 instruction 형태로 입력
Instruction 방식의 장점
- 사용자가 자연어로 모델에게 원하는 행동을 직접 전달할 수 있음
- 입력과 출력 이미지에서 유지되어야 하는 시각적 내용을 다시 설명할 필요가 없음
- 추가적인 예시 이미지가 필요하지 않음
- 특정 객체나 시각적 속성만 정확하게 지정하여 변경 가능
- 표현력이 높고 구체적이며 직관적으로 작성 가능
연구적 배경
- 대규모 언어 모델이 인간의 자연어 지시를 더 잘 따르도록 학습하는 instruction-following 연구에서 영감을 받음
- 언어 분야의 instruction following 개념을 이미지 편집 task에 적용
2.7 생성 모델을 이용한 Training Data 생성
- Deep learning model은 일반적으로 대량의 학습 데이터를 필요로 함
- 인터넷에는 많은 데이터가 존재하지만 특정 task에 필요한 supervised format으로 제공되지는 않음
- 특히 서로 다른 modality가 연결된 paired data는 수집하기 어려움
- 생성 모델의 성능이 발전하면서 생성 모델을 저렴하고 대량으로 확보할 수 있는 학습 데이터의 출처로 사용하는 연구가 증가
- 본 연구의 접근
- 별도로 제공되는 두 개의 off-the-shelf generative model 활용
- Language model
- Text-to-image model
- 두 모델로 이미지 편집용 합성 데이터를 생성
- 생성한 paired dataset으로 최종 이미지 편집 모델을 학습
- 별도로 제공되는 두 개의 off-the-shelf generative model 활용
핵심 차별점
- GPT-3와 Stable Diffusion을 직접 편집 모델로 사용하는 것이 아니라 학습 데이터 생성기로 활용
- 자연어 caption이 아닌 편집 instruction을 입력으로 사용
- 실제 paired editing dataset 없이 합성 데이터만으로 모델 학습
- Mask, 추가 이미지, inversion, 이미지별 fine-tuning 없이 직접 편집 수행
3. Method
- Instruction-based image editing을 supervised learning problem으로 정의
- 전체 과정은 두 단계로 구성됨
- 편집 전·후 이미지와 텍스트 편집 지시문으로 이루어진 paired training dataset 생성
- 생성된 데이터셋으로 image editing diffusion model 학습
- 모델은 합성 이미지와 생성된 편집 지시문만으로 학습됨
- 그럼에도 실제 이미지와 사람이 작성한 임의의 자연어 지시문에 일반화 가능

3.1 Multimodal Training Dataset 생성
- 서로 다른 modality를 처리하는 두 개의 대규모 사전학습 모델을 결합
- GPT-3: 편집 지시문과 편집 전·후 caption 생성
- Stable Diffusion: caption을 이미지로 변환
- 최종적으로 다음 세 요소가 연결된 multimodal training data를 생성
- 편집 전 이미지
- 텍스트 편집 지시문
- 편집 후 이미지
데이터 생성 과정
- GPT-3를 fine-tuning하여 다음 텍스트 triplet 생성
- 입력 이미지 caption
- 편집 instruction
- 편집 후 이미지 caption
- 편집 전·후 caption을 text-to-image model에 입력
- 편집 전 이미지 생성
- 편집 후 이미지 생성
3.1.1 Instruction과 Paired Caption 생성
텍스트 영역에서의 데이터 생성
- 먼저 이미지 생성 없이 text domain에서만 작업
- 입력 이미지 caption을 GPT-3에 제공하면 다음 두 요소를 생성
- 이미지에 적용할 편집 instruction
- 편집 결과를 설명하는 output caption
생성 예시
- Input caption
- photograph of a girl riding a horse
- Edit instruction
- have her ride a dragon
- Output caption
- photograph of a girl riding a dragon
- 이 방식은 편집 지시문과 실제 caption 변화 사이의 대응 관계를 유지하면서 대규모의 다양한 편집 데이터를 생성할 수 있음
GPT-3 Fine-tuning Dataset
- GPT-3를 학습하기 위해 사람이 직접 작성한 소규모 editing triplet dataset 구축
- 각 triplet은 다음으로 구성
- Input caption
- Edit instruction
- Output caption
- **LAION-Aesthetics V2 6.5+**에서 입력 caption 700개를 추출
- 각 caption에 대해 사람이 직접 다음 요소 작성
- 편집 지시문
- 편집 후 caption
- GPT-3 Davinci 모델 사용
- 기본 학습 parameter를 사용하여 1 epoch fine-tuning
GPT-3 생성 결과
- GPT-3의 방대한 사전학습 지식과 일반화 능력을 활용
- Fine-tuning된 모델은 다음 특성을 가진 데이터를 생성
- 창의적이면서도 합리적인 편집 instruction
- Instruction이 적절하게 반영된 output caption
대규모 Corpus 생성
- LAION-Aesthetics의 실제 이미지 caption을 input caption으로 사용
- 중복 caption 또는 중복 image URL이 포함된 sample은 제거
- Fine-tuning된 GPT-3를 사용해 대규모 instruction과 output caption 생성
- 최종 생성된 instruction-caption corpus
- 454,445개 예시
LAION을 선택한 이유
- 매우 큰 데이터셋 규모
- 다양한 콘텐츠 포함
- 고유명사와 대중문화 관련 표현 포함
- 여러 이미지 medium 포함
- Photograph
- Painting
- Digital artwork
LAION의 한계와 대응
- 데이터가 noisy함
- 의미가 없거나 이미지를 충분히 설명하지 못하는 caption이 포함됨
- 이러한 문제는 다음 방법을 통해 완화
- Dataset filtering
- Classifier-free guidance
3.1.2 Paired Caption으로 Paired Image 생성
- 편집 전·후 이미지를 설명하는 caption pair를 pretrained text-to-image model에 입력
- 각 caption에 대응하는 두 이미지를 생성
- 편집 전 이미지
- 편집 후 이미지
문제점 - 이미지 일관성 부족
- 일반적인 text-to-image model은 비슷한 prompt를 사용하더라도 유사한 이미지를 생성한다는 보장이 없음
- 예시
- a picture of a cat
- a picture of a black cat
- 두 prompt의 차이는 작지만, 생성된 이미지에서는 다음 요소가 모두 달라질 수 있음
- 고양이의 외형
- 자세
- 배경
- 이미지 구도
- 이러한 결과는 이미지 편집 학습에 적합하지 않음
- 모델은 원본 이미지를 일부 수정하는 것이 아니라 완전히 다른 이미지를 생성하는 방법을 학습할 수 있음
Prompt-to-Prompt 활용
- 편집 전·후 이미지의 일관성을 유지하기 위해 Prompt-to-Prompt 사용
- Prompt-to-Prompt는 text-to-image diffusion model의 여러 생성 결과가 서로 유사하도록 유도
- 일부 denoising step에서 두 이미지가 동일한 cross-attention weight를 공유하도록 함
- 이를 통해 원본 이미지의 구조와 내용은 유지하면서 특정 요소만 변경할 수 있음
편집마다 필요한 변화량의 차이
- 모든 편집이 동일한 수준의 이미지 유사성을 요구하는 것은 아님
- 작은 편집
- 색상 변경
- 재질 변경
- 특정 속성 추가
- 편집 전·후 이미지가 높은 유사성을 유지해야 함
- 큰 편집
- 객체 위치 이동
- 객체를 다른 형태의 객체로 교체
- 이미지의 전체적인 구조 변경
- 편집 전·후 이미지에 더 큰 차이가 필요함
Prompt-to-Prompt Parameter (p)
- Prompt-to-Prompt는 두 이미지의 유사성을 조절하는 parameter (p)를 제공
- (p)는 두 이미지가 attention weight를 공유하는 denoising step의 비율을 의미
- 높은 (p)
- 더 많은 denoising step에서 attention 공유
- 편집 전·후 이미지의 유사성이 높아짐
- 낮은 (p)
- attention을 공유하는 step 감소
- 이미지의 구조나 내용이 더 크게 변경될 수 있음
- 문제점
- Caption과 instruction만으로 각 편집에 적합한 (p) 값을 결정하기 어려움

다양한 Candidate Image Pair 생성
- 각 caption pair마다 100개의 image pair 생성
- 각 image pair에 서로 다른 (p) 값을 무작위로 적용
- (p)는 다음 uniform distribution에서 sampling
- (p \sim U(0.1, 0.9))
- 이를 통해 적은 변화부터 큰 변화까지 다양한 수준의 image pair 확보
CLIP 기반 Filtering
- 생성된 100개 candidate 중 적절한 image pair를 선택하기 위해 CLIP 기반 metric 사용
- 사용 metric
- Directional similarity in CLIP space
Directional Similarity의 역할
- Caption에서 발생한 의미 변화와 이미지에서 발생한 시각적 변화가 일치하는지 측정
- 비교 대상
- Input caption → Output caption의 변화 방향
- Input image → Output image의 변화 방향
- 두 변화 방향이 CLIP embedding space에서 유사할수록 instruction이 이미지에 올바르게 반영된 것으로 판단
Filtering의 효과
- 편집 instruction과 이미지 변화의 일관성 향상
- Image pair의 품질 향상
- 다양한 변화 수준의 image pair 확보
- Prompt-to-Prompt의 실패 사례 제거
- Stable Diffusion의 부적절한 생성 결과 제거
- 전체 데이터 생성 과정의 안정성과 robustness 향상
3.2 InstructPix2Pix
- 생성한 paired training data를 사용해 자연어 지시문 기반 이미지 편집 diffusion model을 학습
- 모델의 기반 구조로 대규모 text-to-image latent diffusion model인 Stable Diffusion을 사용
- 모델의 입력
- Noise가 추가된 이미지 latent: z_t
- 원본 이미지 조건: c_I
- 텍스트 편집 지시문 조건: c_T
- 모델의 출력
- 입력 이미지와 편집 지시문을 반영한 편집 이미지
Diffusion Model의 기본 원리
- Diffusion model은 noise가 포함된 데이터에서 점진적으로 noise를 제거하는 denoising process를 학습
- 여러 단계의 denoising autoencoder를 통해 실제 데이터 분포에 가까운 sample을 생성
- 모델은 noisy data가 실제 데이터 분포의 높은 밀도 영역으로 이동해야 하는 방향인 score를 추정
Latent Diffusion
- 일반적인 diffusion model은 pixel space에서 작동하기 때문에 계산량이 큼
- Latent Diffusion은 pretrained Variational Autoencoder의 latent space에서 diffusion을 수행하여 계산 효율성과 이미지 생성 품질을 향상
- Variational Autoencoder 구성
- Encoder E: 이미지를 latent representation으로 변환
- Decoder D: latent representation을 이미지로 복원
- 입력 이미지 x는 encoder를 통해 latent z로 변환
z = E(x)
- Diffusion process에서는 timestep t가 증가할수록 latent z에 noise를 추가하여 noisy latent z_t를 생성
InstructPix2Pix의 학습 목표
- 모델 ε_θ는 noisy latent에 추가된 실제 noise ε을 예측
- Noise 예측에 사용되는 정보
- Noisy latent: z_t
- Diffusion timestep: t
- 원본 이미지 latent: E(c_I)
- 텍스트 편집 지시문: c_T
- 학습 objective
L = E[ || ε - ε_θ(z_t, t, E(c_I), c_T) ||²₂ ]
- 기호의 의미
- ε: latent에 실제로 추가된 noise
- ε_θ: 모델이 예측한 noise
- || · ||²₂: 두 값 사이의 squared L2 distance
- E[ · ]: 전체 학습 sample에 대한 expectation
- 실제로 추가된 noise와 모델이 예측한 noise 사이의 mean squared error를 최소화
- 이를 통해 모델은 원본 이미지와 텍스트 편집 지시문을 모두 고려하여 denoising하는 방법을 학습
Stable Diffusion Fine-tuning
- Image translation task에서는 모델을 처음부터 학습하는 것보다 pretrained image diffusion model을 fine-tuning하는 것이 더 효과적
- 특히 paired training data가 제한적인 경우 pretrained model의 활용이 중요
- InstructPix2Pix는 pretrained Stable Diffusion checkpoint로 모델 weight를 초기화
- 이를 통해 Stable Diffusion이 이미 학습한 대규모 text-to-image 생성 능력을 활용
원본 이미지 Conditioning 추가
- 기존 Stable Diffusion은 주로 text condition을 입력받아 이미지를 생성
- InstructPix2Pix는 원본 이미지도 조건으로 입력받아야 하므로 모델의 입력 구조를 수정
- 원본 이미지 condition c_I를 VAE encoder로 변환
E(c_I)
- Noisy latent z_t와 원본 이미지 latent E(c_I)를 channel 방향으로 연결
Input = concat(z_t, E(c_I))
- 이를 처리하기 위해 Stable Diffusion의 첫 번째 convolutional layer에 추가 input channel을 생성
Weight 초기화
- 기존 Stable Diffusion과 동일한 부분
- Pretrained checkpoint의 weight를 그대로 사용
- 새롭게 추가된 image-conditioning channel
- Weight를 0으로 초기화
- 이러한 초기화 방식은 Stable Diffusion의 기존 생성 능력을 유지하면서 새로운 image condition을 안정적으로 학습하도록 도움
Text Conditioning 변경
- Stable Diffusion의 기존 text-conditioning mechanism은 이미지 전체를 설명하는 caption을 입력받도록 설계됨
- InstructPix2Pix에서는 동일한 text-conditioning mechanism을 사용하되 caption 대신 **텍스트 편집 지시문 c_T**를 입력
- 즉, 모델은 결과 이미지 전체에 대한 설명을 입력받는 것이 아니라 원본 이미지에 수행해야 할 편집 행동을 전달받음
3.2.1 두 가지 Condition을 위한 Classifier-Free Guidance
Classifier-Free Guidance란?
- Diffusion model에서 생성 결과의 품질과 다양성 사이의 균형을 조절하는 방법
- Class-conditional 또는 text-conditional image generation에서 널리 사용됨
- 주요 효과
- 생성 이미지의 시각적 품질 향상
- 생성 결과가 주어진 condition에 더 잘 대응하도록 유도
- Guidance scale을 이용해 condition 반영 강도를 조절
Conditional 및 Unconditional Denoising
- 학습 과정에서 일부 sample의 condition을 고정된 null value ∅로 대체
- 이를 통해 하나의 모델이 두 종류의 denoising을 모두 학습
- Conditional denoising
- Unconditional denoising
- 추론 단계에서는 conditional prediction과 unconditional prediction을 결합
ε̃_θ(z_t, c)
= ε_θ(z_t, ∅)
+ s × [ε_θ(z_t, c) - ε_θ(z_t, ∅)]
- 각 항의 의미
- ε_θ(z_t, ∅): condition이 없는 unconditional prediction
- ε_θ(z_t, c): condition이 주어진 conditional prediction
- s: guidance scale
- ε̃_θ: classifier-free guidance가 적용된 최종 noise prediction
- s가 증가할수록 생성 결과가 condition을 더 강하게 반영
- 다만 guidance scale이 지나치게 크면 다양성이 감소하거나 이미지 품질이 저하될 수 있음
InstructPix2Pix의 두 가지 Conditioning
- 일반적인 diffusion model과 달리 InstructPix2Pix는 두 종류의 condition을 사용
- 원본 이미지 condition: c_I
- 텍스트 편집 지시문 condition: c_T
- 모델의 score network
ε_θ(z_t, c_I, c_T)
- 모델은 condition의 조합에 따라 다음과 같은 denoising을 수행할 수 있도록 학습
- 이미지와 텍스트 condition 모두 사용
- 이미지만 사용
- 텍스트만 사용
- 두 condition 모두 사용하지 않음
Condition Dropout
- 학습 과정에서 이미지 condition과 텍스트 condition을 일정 확률로 null value로 설정
- 전체 training example 중
- 5%: 이미지 condition만 제거
- c_I = ∅_I
- 5%: 텍스트 condition만 제거
- c_T = ∅_T
- 5%: 이미지와 텍스트 condition을 모두 제거
- c_I = ∅_I, c_T = ∅_T
- 5%: 이미지 condition만 제거
- 이를 통해 모델은 각 condition의 유무에 따른 conditional 및 unconditional denoising을 모두 학습
두 가지 Guidance Scale
- InstructPix2Pix는 두 condition의 영향력을 개별적으로 조절하기 위해 두 개의 guidance scale을 도입
Image Guidance Scale: s_I
- 생성 결과가 원본 이미지와 얼마나 일치해야 하는지 조절
- s_I가 높을수록 원본 이미지의 구조와 내용이 강하게 유지됨
Text Guidance Scale: s_T
- 생성 결과가 편집 지시문을 얼마나 강하게 반영해야 하는지 조절
- s_T가 높을수록 지시된 변화가 더 뚜렷하게 나타남
수정된 Score Estimate
ε̃_θ(z_t, c_I, c_T)
= ε_θ(z_t, ∅, ∅)
+ s_I × [ε_θ(z_t, c_I, ∅) - ε_θ(z_t, ∅, ∅)]
+ s_T × [ε_θ(z_t, c_I, c_T) - ε_θ(z_t, c_I, ∅)]
각 항의 의미
- Unconditional prediction
ε_θ(z_t, ∅, ∅)
- 이미지와 텍스트 condition을 모두 사용하지 않은 기본 noise prediction
- Image guidance 항
s_I × [ε_θ(z_t, c_I, ∅) - ε_θ(z_t, ∅, ∅)]
- 아무 condition도 없을 때와 이미지 condition만 추가했을 때의 prediction 차이
- 원본 이미지의 구조와 내용이 유지되도록 유도
- Text guidance 항
s_T × [ε_θ(z_t, c_I, c_T) - ε_θ(z_t, c_I, ∅)]
- 원본 이미지 condition만 있을 때와 텍스트 instruction까지 추가했을 때의 prediction 차이
- 편집 지시문에 해당하는 변화가 이미지에 반영되도록 유도
s_I와 s_T의 Trade-off
- 높은 s_I, 낮은 s_T
- 원본 이미지의 구조와 세부 정보가 잘 유지됨
- 편집 지시문에 따른 변화가 약하게 나타날 수 있음
- 낮은 s_I, 높은 s_T
- 편집 지시문이 강하게 적용됨
- 원본 이미지의 구조나 세부 정보가 크게 달라질 수 있음
- 적절한 s_I와 s_T 설정을 통해 다음 두 요소 사이의 균형을 조절
- 원본 이미지 보존
- 편집 instruction 적용

핵심 정리
- InstructPix2Pix는 Stable Diffusion을 기반으로 한 conditional latent diffusion model
- Noisy latent뿐 아니라 원본 이미지와 텍스트 편집 지시문을 동시에 condition으로 사용
- Stable Diffusion의 첫 번째 convolutional layer를 확장하여 원본 이미지 latent를 입력
- 새롭게 추가한 channel의 weight는 0으로 초기화하고 나머지 부분에는 pretrained weight를 사용
- 두 가지 condition을 개별적으로 제어하는 classifier-free guidance를 적용
- s_I는 원본 이미지 보존 정도를 조절
- s_T는 텍스트 편집 지시문의 반영 정도를 조절
4. Results

- 다양한 실제 사진과 예술 작품을 대상으로 자연어 지시 기반 이미지 편집 성능을 평가
- 서로 다른 표현 방식의 instruction과 다양한 편집 유형에 대해 실험 수행
- 성공적으로 수행한 주요 편집 유형
- 객체 교체
- 계절 변경
- 날씨 변경
- 배경 교체
- 재질 및 소재 속성 변경
- 예술적 표현 매체 변경
- 기타 다양한 구조적·스타일적 편집
- 정성적 비교 대상
- SDEdit
- Text2Live
- 정량적 비교 대상
- SDEdit
- 추가 분석
- 생성 학습 데이터의 크기가 성능에 미치는 영향
- CLIP 기반 데이터 filtering의 효과
- 두 classifier-free guidance scale의 영향
4.1 Baseline Comparisons
비교 조건
- InstructPix2Pix는 이미지에 수행할 행동을 설명하는 edit instruction을 입력받음
- SDEdit과 Text2Live는 edit instruction이 아니라 원하는 결과 이미지에 대한 description 또는 edit layer description을 요구
- 공정한 비교를 위해 baseline에는 edit instruction 대신 편집 후 이미지의 전체 caption을 입력
SDEdit
- Pretrained diffusion model을 활용한 이미지 편집 방법
- 입력 이미지에 일정 수준의 noise를 추가한 뒤, 새로운 text prompt를 조건으로 denoising하여 편집 이미지 생성
- 실험에서는 Stable Diffusion 기반의 공개 SDEdit 구현을 사용
장점
- 이미지의 내용이 대체로 유지되고 스타일만 변경되는 편집에서는 비교적 좋은 결과를 생성
한계
- 큰 변화가 필요한 경우 입력 이미지의 identity를 유지하기 어려움
- 특정 객체만 분리하여 선택적으로 변경하는 데 어려움
- 원본 이미지의 구조나 세부 요소가 크게 달라질 수 있음
- 간단한 edit instruction이 아니라 원하는 출력 이미지 전체를 설명하는 caption이 필요
Text2Live
- Text prompt를 조건으로 color와 opacity를 가진 augmentation layer를 생성
- 생성된 layer를 원본 이미지에 추가하여 편집 수행
- 저자가 공개한 구현을 사용해 비교
장점
- 원본 이미지 위에 새로운 시각적 요소를 추가하는 additive edit에서 효과적
- 일부 편집에서는 자연스럽고 설득력 있는 결과 생성
한계
- 편집을 추가 layer 형태로 수행하기 때문에 처리 가능한 편집 유형이 제한적
- 객체 교체, 구조 변경, 배경 변경 등 큰 변화에는 적합하지 않음
정성적 비교 결과
- InstructPix2Pix
- 다양한 유형의 편집을 하나의 모델로 처리
- 입력 이미지의 구조와 identity를 비교적 잘 유지
- 자연어 instruction을 직접 이해하여 필요한 부분을 변경
- SDEdit
- 스타일 변화에는 효과적
- 객체 교체나 큰 구조적 변화에서는 원본 이미지 보존 성능이 떨어짐
- Text2Live
- 새로운 효과나 요소를 덧붙이는 편집에는 효과적
- 적용 가능한 편집 범위가 제한적

정량적 평가 Metric
1. CLIP Image Similarity
- 입력 이미지와 편집 결과 이미지의 CLIP image embedding 간 cosine similarity
- 편집 결과가 원본 이미지와 얼마나 일관성을 유지하는지 측정
- 높은 값
- 원본 이미지의 구조와 내용이 잘 보존됨
2. Directional CLIP Similarity
- Caption에서 발생한 의미 변화와 이미지에서 발생한 시각적 변화가 얼마나 일치하는지 측정
- 비교하는 변화 방향
- 편집 전 caption → 편집 후 caption
- 입력 이미지 → 편집 결과 이미지
- 높은 값
- 이미지의 변화가 텍스트로 표현된 편집 방향과 잘 일치함
- Edit instruction이 성공적으로 반영되었다고 볼 수 있음
두 Metric 간 Trade-off
- 두 metric은 서로 경쟁 관계에 있음
- 편집 결과를 instruction에 강하게 맞출수록
- Directional CLIP similarity 증가
- 원본 이미지와의 차이가 커져 CLIP image similarity 감소 가능
- 원본 이미지를 강하게 유지할수록
- CLIP image similarity 증가
- 편집 변화가 약해져 directional similarity 감소 가능
- 따라서 좋은 이미지 편집 모델은 다음 두 요소의 균형이 필요
- 원본 이미지 일관성
- 편집 지시문의 정확한 반영
SDEdit과의 정량적 비교 결과
- 동일한 directional similarity 수준에서 InstructPix2Pix가 SDEdit보다 더 높은 CLIP image similarity를 보임
- 의미
- 동일한 수준으로 편집 instruction을 반영하면서도 원본 이미지의 구조와 identity를 더 잘 보존
- InstructPix2Pix가 편집 강도와 이미지 일관성 사이에서 더 우수한 trade-off를 제공

4.2 Ablation Studies
Training Dataset 크기의 영향
- 전체 데이터셋과 더 작은 데이터셋으로 학습한 모델을 비교
- 전체 데이터 사용
- 전체 데이터의 10% 사용
- 전체 데이터의 1% 사용
- 학습 데이터가 감소할수록 큰 이미지 편집을 수행하는 능력이 저하됨
- 작은 데이터셋으로 학습한 모델은 주로 다음과 같은 미세한 변화만 수행
- 색감 조정
- 스타일 변경
- 작은 시각적 속성 변경
- 결과적으로 작은 데이터셋을 사용한 모델은
- 원본과 거의 유사하기 때문에 CLIP image similarity는 높음
- 편집 instruction을 충분히 반영하지 못해 directional similarity는 낮음
결론
- 대규모 데이터는 단순한 스타일 변화뿐 아니라 객체 교체나 구조 변경과 같은 큰 편집을 학습하는 데 중요
- 다양한 편집 유형과 변화 규모를 학습하려면 충분한 양의 generated training data가 필요
CLIP Filtering의 영향
- CLIP filtering을 적용한 데이터로 학습한 모델과 filtering을 제거한 데이터로 학습한 모델을 비교
- CLIP filtering을 제거하면
- 편집 결과와 입력 이미지 사이의 일관성이 감소
- 원본 이미지의 구조와 identity가 더 쉽게 훼손됨
- 원인
- Prompt-to-Prompt 또는 Stable Diffusion이 생성한 부적절한 image pair가 학습 데이터에 포함
- Caption의 변화와 이미지의 변화가 일치하지 않는 sample이 제거되지 않음
- 모델이 이미지 편집이 아닌 불필요한 전체 이미지 변화를 학습할 수 있음
결론
- CLIP 기반 filtering은 단순히 데이터 품질을 높이는 것뿐 아니라 입력 이미지와 출력 이미지의 일관성을 유지하는 데 핵심적인 역할을 함

Guidance Scale 분석
Text Guidance Scale (s_T)
- 편집 결과가 텍스트 instruction을 따르는 정도를 조절
- (s_T)가 증가하면
- 이미지에 더 강한 편집이 적용됨
- 출력 이미지가 instruction의 내용과 더 잘 일치
- 지나치게 높으면 원본 이미지의 구조나 identity가 손상될 수 있음
- 일반적으로 좋은 결과를 생성하는 범위
- (s_T = 5 \sim 10)
Image Guidance Scale (s_I)
- 편집 결과가 입력 이미지의 구조와 내용을 유지하는 정도를 조절
- (s_I)가 증가하면
- 원본 이미지의 공간적 구조가 더 잘 보존됨
- 입력 이미지와 출력 이미지의 일관성이 높아짐
- 지나치게 높으면 편집 instruction이 충분히 반영되지 않을 수 있음
- 일반적으로 좋은 결과를 생성하는 범위
- (s_I = 1 \sim 1.5)
Guidance Scale의 실전 설정
- 모든 이미지와 instruction에 동일한 guidance scale을 사용하는 것보다 편집 사례에 따라 값을 조정하는 것이 효과적
- 큰 변화가 필요한 편집
- 상대적으로 높은 (s_T)
- 상대적으로 낮은 (s_I)
- 원본 구조를 강하게 보존해야 하는 편집
- 상대적으로 높은 (s_I)
- 적절한 수준의 (s_T)
- 논문의 결과 이미지에서도 각 사례에 따라 guidance weight를 조정하여 이미지 일관성과 편집 강도의 최적 균형을 선택
핵심 결과
- InstructPix2Pix는 실제 사진과 예술 작품에서 다양한 자연어 기반 편집을 성공적으로 수행
- SDEdit보다 동일한 편집 강도에서 원본 이미지의 일관성을 더 잘 유지
- Text2Live보다 훨씬 다양한 종류의 이미지 편집이 가능
- 대규모 학습 데이터는 객체 교체와 같은 큰 편집을 수행하는 데 중요
- CLIP filtering은 생성 데이터의 오류를 제거하고 이미지 일관성을 높이는 데 효과적
- (s_T)는 편집 강도, (s_I)는 원본 이미지 보존 정도를 조절
- 최적의 결과를 위해 이미지와 instruction에 따라 두 guidance scale을 적절히 조정해야 함
5. Discussion
- 본 연구는 두 개의 대규모 사전학습 모델을 결합하여 이미지 편집용 학습 데이터셋을 생성
- GPT-3: 편집 instruction과 편집 후 caption 생성
- Stable Diffusion: 편집 전·후 이미지 생성
- 생성된 multimodal dataset을 사용해 자연어 이미지 편집 지시를 따르는 diffusion model을 학습
- 모델은 다양한 유형의 편집을 수행 가능
- 이미지 스타일 변경
- 예술적 표현 매체 변경
- 배경이나 상황 등 contextual 요소 변경
- 객체 및 시각적 속성 수정
주요 한계

1. 생성 이미지 품질에 대한 의존성
- InstructPix2Pix의 성능은 생성된 학습 데이터의 시각적 품질에 크게 의존
- 학습 이미지가 Stable Diffusion으로 생성되기 때문에 Stable Diffusion의 한계가 그대로 반영됨
- Stable Diffusion이 낮은 품질의 이미지나 부정확한 이미지를 생성하면
- 학습 데이터의 품질이 저하됨
- 최종 이미지 편집 모델의 성능도 저하됨
2. GPT-3 기반 Instruction 생성의 한계
- 새로운 편집 유형에 일반화하는 능력은 GPT-3 fine-tuning에 사용된 사람이 작성한 instruction에 영향을 받음
- 성능을 제한하는 요소
- 사람이 작성한 초기 instruction 데이터의 다양성
- GPT-3가 적절한 instruction을 생성하는 능력
- GPT-3가 input caption을 instruction에 맞게 정확히 수정하는 능력
- 초기 데이터에 포함되지 않은 편집 유형이나 표현 방식은 모델이 충분히 학습하지 못할 수 있음
3. Prompt-to-Prompt의 한계
- 편집 전·후 이미지 pair의 품질은 Prompt-to-Prompt의 편집 능력에 의존
- Prompt-to-Prompt가 특정 변화를 제대로 반영하지 못하면 잘못된 paired data가 생성될 수 있음
- 결과적으로 최종 모델도 instruction과 시각적 변화 사이의 잘못된 관계를 학습할 가능성이 있음
4. 객체 개수 인식의 어려움
- 모델은 이미지 속 객체의 개수를 정확하게 처리하는 데 어려움이 있음
- 예시
- 객체를 특정 개수만큼 추가
- 여러 객체 중 일부만 제거
- 서로 다른 위치에 각각 다른 개수의 객체 배치
- 예를 들어 다음과 같은 지시를 정확히 수행하기 어려움
- “테이블 위에 컵 두 개를 놓고 의자 위에 컵 한 개를 놓아라.”
- 이러한 counting 문제는 Stable Diffusion과 Prompt-to-Prompt에서도 공통적으로 나타나는 한계
5. Spatial Reasoning의 어려움
- 모델은 객체 사이의 공간적 관계를 이해하고 변경하는 데 어려움이 있음
- 어려운 instruction 예시
- “객체를 이미지의 왼쪽으로 이동시켜라.”
- “두 객체의 위치를 서로 바꿔라.”
- “한 객체를 다른 객체의 오른쪽에 배치하라.”
- “특정 개수의 객체를 서로 다른 장소에 놓아라.”
- 모델은 텍스트의 의미는 이해하더라도 이미지 내부에서 정확한 위치 관계를 구현하지 못할 수 있음
6. Bias 문제
- 모델은 기존 데이터와 pretrained model에 존재하는 bias를 이어받을 수 있음
- Bias의 출처
- LAION 데이터셋
- GPT-3
- Stable Diffusion
- Prompt-to-Prompt
- 사람이 작성한 fine-tuning instruction
- 편집 결과에서 나타날 수 있는 문제
- 특정 직업, 성별, 인종 또는 문화에 대한 고정관념 재생산
- 원본 이미지에 없던 편향된 요소 추가
- 기존 데이터의 편향을 강화
- 새로운 형태의 bias 생성
- 따라서 생성 결과를 사용할 때 사회적·윤리적 영향을 고려해야 함
Future Work
1. Spatial Reasoning 개선
- 객체의 위치와 관계를 정확하게 이해하고 수정하는 방법 필요
- 개선이 필요한 기능
- 객체 이동
- 객체 간 위치 교환
- 방향 및 거리 이해
- 객체 개수 제어
- 복잡한 공간적 배치 수행
2. 다른 Conditioning Modality와의 결합
- 자연어 instruction뿐 아니라 사용자 interaction과 같은 다른 조건을 함께 사용하는 방향 제안
- 결합 가능한 사용자 입력
- User-drawn mask
- Bounding box
- Point selection
- Sketch
- Gesture
- 사용자가 선택한 편집 영역
- 자연어의 표현력과 시각적 입력의 정확성을 결합하면 특정 영역을 더욱 세밀하게 편집할 수 있음
3. 평가 방법 개발
- Instruction-based image editing을 정확하게 평가할 수 있는 새로운 방법이 필요
- 기존 metric만으로는 다음 요소를 모두 평가하기 어려움
- Instruction을 정확히 따랐는지
- 편집하지 않은 영역이 유지되었는지
- 결과가 자연스럽고 현실적인지
- 사용자의 실제 의도와 일치하는지
- 향후에는 자동 평가 metric과 human evaluation을 함께 활용할 필요가 있음
4. Human Feedback 활용
- 사람의 피드백을 학습 과정에 반영하여 모델이 사용자의 의도를 더 정확하게 따르도록 개선 가능
- 가능한 접근 방식
- 사용자가 여러 결과 중 가장 적절한 결과 선택
- 편집 결과에 대한 선호도 평가
- 잘못된 편집 사례에 대한 수정 feedback 제공
- Human-in-the-loop reinforcement learning 적용
- 이를 통해 모델과 인간 의도 사이의 alignment를 향상할 수 있음