전체 글410 [2026-1] 김지은 - Talking-Heads Attention 본 글에서는 Transformer의 Multi Head Attention에서 헤드의 수 증가로 인해 각 헤드의 표현력이 감소하는 문제를 해결하기 위해, head dimension에서의 linear projection을 통해 헤드 간 정보를 섞는 Talking-Heads 구조를 살펴본다.1. IntroductionTransformer (Vaswani et al., 2017)는 멀티 헤드 어텐션 구조를 통해 다양한 관계를 기반으로 동시에 여러 위치에 어텐션을 적용하여 성능을 향상시켰다. 하지만 헤드의 수를 늘리고 각 헤드의 차원을 줄이는 경우 (연산량 제약으로 인해 헤드 수와 각 헤드의 차원은 반비례 관계를 가짐) 각 헤드의 표현력이 감소하게 되고, 그 결과 query 벡터와 key 벡터의 dot produ.. 2026. 5. 2. [2026-1] 이루가 - What does CLIP know about a red circle? Visual prompt engineering for VLM 논문 링크: https://arxiv.org/abs/2304.06712 What does CLIP know about a red circle? Visual prompt engineering for VLMsLarge-scale Vision-Language Models, such as CLIP, learn powerful image-text representations that have found numerous applications, from zero-shot classification to text-to-image generation. Despite that, their capabilities for solving novel discriminativearxiv.org ABSTRACT이 논문은 CLIP .. 2026. 4. 25. [2026-1] 정유림 - DataComp: In search of the next generation of multimodal datasets 논문 : https://arxiv.org/abs/2304.14108 DataComp: In search of the next generation of multimodal datasetsMultimodal datasets are a critical component in recent breakthroughs such as Stable Diffusion and GPT-4, yet their design does not receive the same research attention as model architectures or training algorithms. To address this shortcoming in the ML ecosarxiv.org 보통 머신러닝 benchmark는 데이터셋을 고정.. 2026. 4. 25. [2026-1] 김지원 - Learning Transferable Visual Models From Natural Language Supervision 논문: Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)저자: Alec Radford, Jong Wook Kim, Chris Hallacy, et al.링크: arXiv | GitHub 들어가며 기존의 이미지 분류 모델(ResNet, EfficientNet 등)은 미리 정의된 클래스 집합 안에서만 예측이 가능함. ImageNet으로 학습된 모델은 1,000개의 클래스만 알며, 새로운 클래스를 추가하려면 또 다시 대규모의 라벨링 데이터가 요구됨. 이러한 제약된 형태의 지도 학습은 모델의 일반화 능력과 활용성을 크게 제한함. CLIP(Contrastive Language-Image Pre-training) .. 2026. 4. 18. 이전 1 2 3 4 ··· 103 다음