본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글412

[2026-1] 정재훈 - Multimodal UnsupervisedImage-to-Image Translation https://arxiv.org/pdf/1804.04732 1. Introduction - 기존 모델의 한계기존에 존재한 CycleGAN을 비롯한 모델들은 입력과 출력이 1:1로 대응되어야 하는 한계점을 가짐 - 현실의 Multimodality 반영 불가현실을 모사하는 것에는 한가지 정답이 아닌 다양한 정답지가 있을 수 있으나 현재 모델은 결정론적인 함수의 형태가 많음. 위의 한계점을 극복한 MUNIT의 모델을 연구팀은 제안하고자 함. 2. Multimodal Unsupervised Image-to-image Translation1. Assumtionxi ∈ Xi 이고, x1 = G_1 (c, s1) x2 = G_2 (c, s2)라 하자.여기서 c는 content code s는 style code를 의.. 2026. 5. 16.
[2026-1] 박승원 - Hymba: A Hybrid-head Architecture for Small Language Models 논문 정보https://arxiv.org/pdf/2411.13676저자: Xin Dong*, Yonggan Fu* et al.소속: NVIDIA 핵심 아이디어Hymba는 Transformer의 attention mechanism과 Mamba 계열의 State Space Model을 결합한 hybrid architecture이다. 기존 hybrid 모델들이 attention layer와 SSM layer를 번갈아 쌓는 방식이었다면, Hymba는 한 layer 안에서 attention head와 SSM head를 병렬로 배치한다. 이를 통해 attention의 정확한 recall 능력과 SSM의 효율적인 context summarization 능력을 함께 활용한다. 또한 meta tokens, sliding.. 2026. 5. 15.
[2026-1] 김지은 - Talking-Heads Attention 본 글에서는 Transformer의 Multi Head Attention에서 헤드의 수 증가로 인해 각 헤드의 표현력이 감소하는 문제를 해결하기 위해, head dimension에서의 linear projection을 통해 헤드 간 정보를 섞는 Talking-Heads 구조를 살펴본다.1. IntroductionTransformer (Vaswani et al., 2017)는 멀티 헤드 어텐션 구조를 통해 다양한 관계를 기반으로 동시에 여러 위치에 어텐션을 적용하여 성능을 향상시켰다. 하지만 헤드의 수를 늘리고 각 헤드의 차원을 줄이는 경우 (연산량 제약으로 인해 헤드 수와 각 헤드의 차원은 반비례 관계를 가짐) 각 헤드의 표현력이 감소하게 되고, 그 결과 query 벡터와 key 벡터의 dot produ.. 2026. 5. 2.
[2026-1] 이루가 - What does CLIP know about a red circle? Visual prompt engineering for VLM 논문 링크: https://arxiv.org/abs/2304.06712 What does CLIP know about a red circle? Visual prompt engineering for VLMsLarge-scale Vision-Language Models, such as CLIP, learn powerful image-text representations that have found numerous applications, from zero-shot classification to text-to-image generation. Despite that, their capabilities for solving novel discriminativearxiv.org ABSTRACT이 논문은 CLIP .. 2026. 4. 25.