본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글388

[2026-1] 장인영 - BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Model 논문 링크 : https://arxiv.org/abs/2301.12597 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language ModelsThe cost of vision-and-language pre-training has become increasingly prohibitive due to end-to-end training of large-scale models. This paper proposes BLIP-2, a generic and efficient pre-training strategy that bootstraps vision-language pre-training from .. 2026. 2. 21.
[2026-1] 김정운 & 김효민 - CritPT (Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark) [CritPt] Tech Report & Example Challenge & Dataset Link CritPt - Physics Benchmark critpt.com Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research BenchmarkWhile large language models (LLMs) with reasoning capabilities are progressing rapidly on high-school math competitions and coding, can they reason effectively through complex, open-ended challenges found in front.. 2026. 2. 19.
[2026-1] Humanity’s Last Exam - 박서형, 김다정 1. Introduction대형 언어모델(LLM)의 성능이 빠르게 올라가면서, 기존의 벤치마크들은 점점 측정 도구로서 의미를 잃고 있다. 예를 들어, MMLU 같은 대표 벤치마크에서 최신 모델들이 90% 이상의 높은 정확도를 달성하면서, 모델이 더 좋아져도 점수는 그 개선을 충분히 반영하지 못한다. 이러한 문제를 본 논문에서는 "benchmark saturation"라고 명명한다. 이 문제의식에서 출발해 저자들은 Humanity’s Last Exam (HLE) 이라는 새로운 벤치마크를 제안한다. 이 벤치마크는 다음과 같은 조건을 만족한다.광범위한 학문 커버리지(수학/자연과학/인문사회 등)폐쇄형(close-ended): 정답이 명확히 존재하고 자동 채점이 가능인터넷 검색으로 빠르게 해결되지 않음(retr.. 2026. 2. 19.
[2026-1] 임준수, 박승원 - GPQA (Diamond): A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022 GPQA: A Graduate-Level Google-Proof Q&A BenchmarkWe present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresarxiv.org1. 데이터셋 구성 의의AI 모델의 성능이 증가함에 따라, 인간이 진실을 쉽게 검증할 수 없.. 2026. 2. 19.