본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글370

[2025-2] 최민서 - SimPO: Simple Preference Optimization with a Reference-Free Reward [논문링크] https://arxiv.org/abs/2405.14734 SimPO: Simple Preference Optimization with a Reference-Free RewardDirect Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we proposarxiv.org DPO에 대해 잘 모른다면 논문을 이해하는데 힘.. 2025. 12. 31.
[2025-2] 백승우 - MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI AgentsTo enhance the efficiency of GUI agents on various platforms like smartphones and computers, a hybrid paradigm that combines flexible GUI operations with efficient shortcuts (e.g., API, deep links) is emerging as a promising direction. However, a frameworkarxiv.org 2025. 12. 24.
[2025-2] 박제우 - Sharpness-Aware Minimization for Efficiently Improving Generalization https://arxiv.org/abs/2010.01412 Sharpness-Aware Minimization for Efficiently Improving GeneralizationIn today's heavily overparameterized models, the value of the training loss provides few guarantees on model generalization ability. Indeed, optimizing only the training loss value, as is commonly done, can easily lead to suboptimal model quality. Motivatearxiv.org Abstract현대 딥러닝 모델은 대부분 Overpar.. 2025. 12. 20.
[2025-2] 김지은 - Deep Residual Learning for Image Recognition 본 글에서는 CNN의 발전 과정을 대표적인 네 편의 논문을 중심으로 살펴보고, 그 흐름 속에서 ResNet: Deep Residual Learning for Image Recognition이 갖는 의미를 집중적으로 분석한다.AlexNet (2012)AlexNet은 ImageNet 대규모 시각 인식 챌린지(ILSVRC)에서 CNN이 기존 전통적 기법들을 압도할 수 있음을 증명하며 CNN을 컴퓨터비전 연구의 주류로 끌어올린 모델이다. AlexNet은 5개의 합성곱 레이어와 3개의 완전 연결 레이어, 총 8개의 학습 레이어로 구성된 심층 신경망이다. 이러한 대규모 모델의 핵심 요소는 다음과 같다.ReLU 활성화 함수 $f(x)=\max(0,x)$를 도입해 기존 sigmoid나 tanh 대비 훨씬 빠른 수렴을.. 2025. 12. 20.