논문 링크 : https://arxiv.org/abs/2301.12597
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
The cost of vision-and-language pre-training has become increasingly prohibitive due to end-to-end training of large-scale models. This paper proposes BLIP-2, a generic and efficient pre-training strategy that bootstraps vision-language pre-training from o
arxiv.org
1. Introduction
연구 배경
- Vision-Language Pre-training (VLP)은 최근 대규모 모델과 데이터셋을 활용하며 빠르게 발전해 왔지만, 대부분의 최신 모델은 end-to-end 방식으로 학습되어 매우 높은 계산 비용을 요구한다.
- Vision-Language 연구는 본질적으로 Vision과 Language의 교차 영역에 있음에도, 이미 잘 학습된 단일 모달 모델을 충분히 활용하지 못하는 한계가 있다.
제안 내용
- 이를 해결하기 위해 본 논문은 사전학습된 Vision 모델과 Language 모델을 고정(frozen)한 채 활용하는 계산 효율적인 VLP 프레임워크인 BLIP-2를 제안한다.
- BLIP-2의 핵심은 Q-Former(Querying Transformer)라는 경량 트랜스포머 모듈이다. Q-Former는 학습 가능한 query 벡터를 통해 고정된 이미지 인코더로부터 핵심 시각 특징을 추출하고, 이를 고정된 LLM이 이해할 수 있는 형태로 전달하는 정보 병목(information bottleneck) 역할을 수행한다.

BLIP-2 프레임워크 개요 - 이를 위해 두 단계 사전학습 전략을 사용한다. 1단계에서는 텍스트와 관련된 시각 표현을 학습하는 표현 학습(representation learning)을 수행하고, 2단계에서는 Q-Former의 출력을 고정된 LLM과 연결하여 시각 정보를 텍스트 생성에 활용하는 생성 학습(generative learning)을 수행한다.
결과
- BLIP-2는 VQA, 이미지 캡셔닝, 이미지-텍스트 검색 등 다양한 Vision-Language 과제에서 SOTA 성능을 달성하였다. 특히 기존 대형 모델 대비 훨씬 적은 학습 파라미터만으로 경쟁력 있는 성능을 보이며, 계산 효율성과 확장성을 동시에 확보하였다.
2. Related Work
2.1. End-to-end Vision-Language Pre-training
- End-to-end Vision-Language Pre-training (VLP)은 이미지와 텍스트를 함께 학습하는 멀티모달 파운데이션 모델을 구축하는 방식으로, dual-encoder, fusion-encoder, encoder-decoder, unified transformer 등 다양한 아키텍처가 제안되어 왔다.
- 그러나 대부분 대규모 이미지-텍스트 쌍 데이터셋을 활용하여 end-to-end 방식으로 사전학습을 수행하기 때문에 모델 규모가 커질수록 계산 비용이 급격히 증가하고, 이미 학습된 단일 모달 모델을 유연하게 활용하기 어렵다는 한계가 있다.
2.2. Modular Vision-Language Pre-training
- 이러한 한계를 완화하기 위해 등장한 Modular Vision-Language Pre-training 방식은 기존에 사전학습된 이미지 인코더나 언어 모델을 고정(frozen)한 채 활용한다.
- 일부 연구는 이미지 인코더를 고정하고 시각 특징만 추출하며, 다른 연구는 LLM을 고정한 채 vision-to-language 생성에 활용한다. 특히 고정된 LLM을 사용할 경우, 시각 정보를 텍스트 표현 공간에 정렬하는 것이 핵심 과제로 떠오른다.
- 이를 해결하기 위해 Frozen은 이미지 인코더 출력을 LLM의 soft prompt로 사용하고, Flamingo는 LLM 내부에 cross-attention 레이어를 추가해 시각 정보를 주입한다. 두 방법 모두 언어 모델링 손실을 사용해 이미지 조건부 텍스트 생성을 학습한다.
- BLIP-2는 이러한 기존 방법들과 달리, 고정된 이미지 인코더와 고정된 LLM을 모두 효율적으로 연결하여 더 낮은 계산 비용으로 더 강력한 성능을 달성하는 점이 특징이다.
3. Method
3.1. Model Architecture
- 고정된 이미지 인코더와 대규모 언어 모델(LLM)은 입력 표현의 구조와 학습 방식이 근본적으로 다르기 때문에 직접 연결하기 어렵다. BLIP-2는 이러한 모달리티 간 불일치를 해결하기 위해 Querying Transformer(Q-Former)를 중간 매개 모듈로 도입한다.
- Q-Former는 동일한 self-attention 레이어를 공유하는 두 개의 Transformer 하위 모듈로 구성된다.
1. 고정된 이미지 인코더와 상호작용하는 이미지 Transformer
2. 텍스트 인코더와 디코더의 역할을 모두 수행할 수 있는 텍스트 Transformer - 두 모듈은 파라미터를 공유함으로써 이미지와 텍스트 입력을 동일한 표현 공간에서 처리할 수 있도록 설계되었다.
- Q-Former의 핵심 구성 요소는 학습 가능한 32개의 쿼리 임베딩(Query Embeddings)이다. 이 쿼리들은 크로스 어텐션을 통해 이미지 인코더의 고차원 출력과 상호작용하며, 텍스트와 가장 관련성이 높은 시각 정보만을 선택적으로 추출한다.
- 결과적으로 Q-Former는 고차원의 시각 표현을 제한된 크기의 표현으로 압축하는 정보 병목(information bottleneck) 역할을 수행한다. 이를 통해 BLIP-2는 약 188M 파라미터 규모의 경량 모듈만 학습하면서도 고정된 비전 모델과 LLM 사이의 효과적인 정렬을 가능하게 한다.
3.2. Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder

- 1단계에서는 고정된 이미지 인코더와 연결된 Q-Former를 학습하여 텍스트와 관련된 시각 표현을 추출하도록 한다.
- 이를 위해 세 가지 사전학습 목적 함수를 공동으로 최적화한다.
- Image-Text Contrastive Learning (ITC)
쿼리 출력 표현과 텍스트의 [CLS] 토큰 표현 간 유사도를 계산하여 이미지-텍스트 정렬을 학습한다. 여러 쿼리 출력 중 가장 높은 유사도를 이미지-텍스트 유사도로 사용한다. - Image-grounded Text Generation (ITG)
멀티모달 causal self-attention 마스크를 사용하여, 쿼리가 이미지 정보를 먼저 추출한 뒤 텍스트 생성에 활용되도록 학습한다. - Image-Text Matching (ITM)
양방향 self-attention을 통해 쿼리와 텍스트가 완전히 상호작용하도록 하며, 이미지-텍스트 쌍의 일치 여부를 예측하는 이진 분류 과제로 세밀한 정렬을 학습한다.
3.3. Bootstrap Vision-to-Language Generative Learning from a Frozen LLM

- 2단계에서는 Q-Former의 출력을 고정된 LLM에 연결하여 시각 조건 기반 텍스트 생성을 학습한다. Q-Former의 출력은 선형 투사를 통해 LLM의 입력 차원으로 변환되며, 텍스트 토큰 앞에 추가되어 soft visual prompt로 사용된다.
- 이미 1단계에서 시각-언어 정렬이 이루어졌기 때문에, 이 단계에서는 LLM의 파라미터를 변경하지 않고도 효율적인 시각 정보 활용이 가능하다. 또한 Q-Former가 정보 병목 역할을 수행함으로써 LLM이 직접 모달 정렬을 학습할 필요가 줄어들어, 생성 학습 과정에서의 성능 저하 및 catastrophic forgetting 문제를 완화한다.
3.4. Model Pre-training
- BLIP-2는 CapFilt 기법을 적용한 대규모 이미지-텍스트 데이터셋(약 1억 2천만 장 규모)을 활용한다. CapFilt는 BLIP-Large 모델로 합성 캡션을 생성하고 CLIP 기반 유사도 평가를 통해 신뢰도 높은 캡션을 선별하는 데이터 정제 방법이다.
- 고정된 이미지 인코더(CLIP ViT-L/14, EVA-CLIP ViT-g/14)와 LLM(OPT, FlanT5)을 사용하며, 두 단계 학습 전략을 통해 계산 효율성을 크게 향상시켰다.
4. Experiment

4.1. Instructed Zero-shot Image-to-Text Generation (지시 기반 제로샷 이미지 - 텍스트 생성)
- BLIP-2는 이미지 정보를 이해하면서도 LLM의 기존 프롬프트 따르기 능력을 유지할 수 있음을 검증하였다. 시각 프롬프트와 텍스트 지시문을 함께 입력하면, 모델은 자연스럽게 지시를 따르는 이미지-텍스트 생성을 수행한다.
- Zero-shot VQA 실험에서 BLIP-2는 VQAv2, GQA 데이터셋에서 SOTA 성능을 달성했으며, Flamingo 80B 대비 최대 8.7% 높은 성능을 보이면서도 54배 적은 학습 파라미터만 사용했다. 또한 더 큰 이미지 인코더(ViT-g)나 더 강력한 LLM(FlanT5, 대형 OPT)을 사용할수록 성능이 향상되는 것이 확인되었다. 이는 BLIP-2가 최신 단일 모달 모델의 발전을 효율적으로 흡수할 수 있는 일반적 프레임워크임을 보여준다.
- 특히 1단계 표현 학습(representation learning)이 중요한 역할을 한다는 점이 실험적으로 입증되었다. 해당 단계를 제거하면 zero-shot VQA 성능이 크게 감소하며, 일부 LLM(예: OPT)은 catastrophic forgetting 현상까지 나타났다.
4.2. Image Captioning
- COCO에서 fine-tuning을 수행한 후 평가한 결과, BLIP-2는 COCO test set뿐 아니라 out-of-domain 데이터셋인 NoCaps에서도 기존 방법 대비 향상된 성능을 보였다. 이는 frozen LLM을 유지한 상태에서도 Q-Former와 이미지 인코더만 업데이트하여 강한 일반화 성능을 확보할 수 있음을 보여준다.
4.3. Visual Question Answering
- VQA에서는 open-ended 생성 방식으로 답변을 생성하도록 fine-tuning하였다. 질문을 Q-Former에 함께 입력하여 시각적 주의를 질문 중심으로 유도함으로써 성능을 향상시켰다. 그 결과 BLIP-2는 open-ended 생성 모델 중 SOTA 수준의 성능을 달성하였다.
4.4. Image-Text Retrieval
- 이미지-텍스트 검색에서는 LLM 없이 1단계에서 학습된 Q-Former와 이미지 인코더만을 활용하여 fine-tuning하였다. BLIP-2는 zero-shot 및 COCO fine-tuning 환경 모두에서 기존 방법 대비 높은 검색 성능을 기록하였다.
- 또한 ITG(image-grounded text generation) 손실이 검색 성능 향상에도 기여한다는 점을 확인하였다. 이는 표현 학습 단계에서 쿼리가 텍스트와 관련된 시각 특징을 추출하도록 강제한 설계가 타당했음을 뒷받침한다.
5. Limitation
- BLIP-2는 LLM의 in-context learning 능력을 충분히 활용하지 못한다. 이는 사전학습 데이터가 한 샘플당 하나의 이미지-텍스트 쌍만 포함하고 있어 여러 쌍 간 관계를 학습하지 못했기 때문으로 분석된다.
- 이미지-텍스트 생성 결과가 부정확한 지식, 잘못된 추론 경로, 최신 정보 부족 등의 문제를 포함할 수 있으며, frozen LLM을 사용하기 때문에 사회적 편향, 공격적 언어 생성, 개인정보 노출 등의 위험을 그대로 상속한다. 이를 완화하기 위해 지시문 기반 제어 및 유해 콘텐츠 필터링 데이터 활용이 필요하다.
6. Conclusion
- BLIP-2는 frozen image encoder와 frozen LLM을 활용한 계산 효율적인 Vision-Language 사전학습 프레임워크이다. Q-Former를 중심으로 한 2단계 학습 전략을 통해 모달리티 간 격차를 효과적으로 연결하며, 적은 학습 파라미터로도 다양한 Vision-Language 태스크에서 SOTA 성능을 달성하였다.
- 또한 zero-shot 지시 기반 이미지-텍스트 생성 능력을 통해 멀티모달 대화형 AI로 확장될 가능성을 보여주며, BLIP-2는 멀티모달 파운데이션 모델 발전의 중요한 전환점으로 평가할 수 있다.