전체 글404 [2026-1] 정재훈 - CoCa: Contrastive Captioners are Image-Text Foundation Models https://arxiv.org/abs/2205.01917v2 1. Introduction최근 BERT, T5, GPT-3와 같이 web-scale data로 pretrained된 기반 언어 모델들이 zero-shot, few-shot, 전이학습 등을 통해 대규모 멀티태스킹 능력을 증명하며 부상하고 있습니다. 각각 task에 전문화된 개별 모델에 비해 대규모 downstream을 위해 pretrained된 모델은 학습비용을 상각할 수 있어 인간 수준 지능의 모델을 위한 한계를 뛰어넘을 수 있는 가능성을 제시합니다. vision-language problem에 대하여 여러 기반 모델들이 후보로 탐색되었다.1. Single-encoder : 이전 연구들은 cross-entropy loss로 pretraine.. 2026. 2. 21. [2026-1] 장인영 - BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Model 논문 링크 : https://arxiv.org/abs/2301.12597 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language ModelsThe cost of vision-and-language pre-training has become increasingly prohibitive due to end-to-end training of large-scale models. This paper proposes BLIP-2, a generic and efficient pre-training strategy that bootstraps vision-language pre-training from .. 2026. 2. 21. [2026-1] 김정운, 김효민 - CritPT (Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark) [CritPt] Tech Report & Example Challenge & Dataset Link CritPt - Physics Benchmark critpt.com Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research BenchmarkWhile large language models (LLMs) with reasoning capabilities are progressing rapidly on high-school math competitions and coding, can they reason effectively through complex, open-ended challenges found in front.. 2026. 2. 19. [2026-1] 박서형, 김다정 - Humanity’s Last Exam 1. Introduction대형 언어모델(LLM)의 성능이 빠르게 올라가면서, 기존의 벤치마크들은 점점 측정 도구로서 의미를 잃고 있다. 예를 들어, MMLU 같은 대표 벤치마크에서 최신 모델들이 90% 이상의 높은 정확도를 달성하면서, 모델이 더 좋아져도 점수는 그 개선을 충분히 반영하지 못한다. 이러한 문제를 본 논문에서는 "benchmark saturation"라고 명명한다. 이 문제의식에서 출발해 저자들은 Humanity’s Last Exam (HLE) 이라는 새로운 벤치마크를 제안한다. 이 벤치마크는 다음과 같은 조건을 만족한다.광범위한 학문 커버리지(수학/자연과학/인문사회 등)폐쇄형(close-ended): 정답이 명확히 존재하고 자동 채점이 가능인터넷 검색으로 빠르게 해결되지 않음(retr.. 2026. 2. 19. 이전 1 2 3 4 5 6 7 8 ··· 101 다음