본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Computer Vision108

[2025-1] 전연주 - GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 논문 링크: 2305.132451. Attention 개요GQA를 이해하기 위해 Transformer 모델에서 사용되는 주요 Attention 기법을 정리한다.Multi-Head Attention (MHA)Transformer 모델의 핵심 구조로, Attention Is All You Need (2017) 논문에서 제안됨.Query(Q), Key(K), Value(V)를 여러 개의 Head로 나누어 병렬 연산 수행.장점: 다양한 의미 표현을 학습할 수 있어 모델 성능 향상.단점: 메모리 사용량이 많고, 연산량이 크며, 병목 현상이 발생할 가능성이 있음.KV Cached AttentionAutoRegressive Inference에서 이전 token에 대한 Key-Value(KV) 연산을 저장하는 방식.W.. 2025. 1. 31.
[2025-1] 전연주 - Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 링크: 2310.04378 참고 유튜브 링크: [Open DMQA Seminar] Accelerating Diffusion Models - Consistency Models and Hybrid Approach - YouTube 참고 논문 리뷰 블로그 링크: Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰 :: LOEWEN Latent Consistency Models : Synthesizing High-Resolution ImagesWith Few-Step Inference 논문 리뷰0. 요약문제의식이 논문은 고해상도 이미지 생성을 위한 Latent Diffusion Models의 .. 2025. 1. 25.
[2025-1] 임수연 - Photo-Realistic Single Image Super-Resolution Using a Generative AdversarialNetwork https://arxiv.org/pdf/1609.048021. Introduction이번 포스팅에서는 단일 이미지 초해상도(Single Image Super-Resolution, SISR)를 위한 SRGAN (Super-Resolution Generative Adversarial Network) 논문을 살펴보겠습니다. SR은 저해상도(LR) 이미지를 고해상도(HR) 이미지로 복원하는 기술입니다.기존의 초해상도 모델들은 MSE 기반 손실 함수를 최적화하여 해상도를 높이지만 SRGAN에서는 GAN을 적용하여 texture detail을 향상하는 방법을 제안합니다.SRGAN의 핵심 모델로 SRGAN-VGG54가 사용되었으며 이는 VGG19의 5번째 컨볼루션 층의 4번째 활성화 출력을 기반으로 한 Percept.. 2025. 1. 25.
[2025-1] 김경훈 - LATENT CONSISTENCY MODELS:SYNTHESIZING HIGH-RESOLUTION IMAGESWITH FEW-STEP INFERENCE 원본 논문 링크 : https://arxiv.org/pdf/2310.04378    블로그 작성일 : 2025.01.25(토) LCM(컨시스턴시 모델)은 생성 속도를 높이고자 하는 목적에서 출발한 모델로, 고해상도 이미지를 더 빠르게 생성하고자 하는 노력이 돋보입니다. 기존의 디퓨전 모델은 단계를 여러 번 거쳐 이미지를 생성하는데, LCM은 이러한 단계를 축소하여 빠르게 고품질 이미지를 얻고자 합니다.LCM은 역 디퓨전과정에서 수식을 통해 특정 부분을 대체함으로써 이미지 생성 속도를 향상시킵니다. 이는 기존의 미분 방정식을 푸는 과정을 더 효율적으로 처리함으로써 가능해졌습니다. 특히, probability flow 기반의 미분 방정식을 대체하여 학습을 가속화하고 높은 품질의 이미지를 빠르게 생성할 수 있.. 2025. 1. 25.