NLP91 [2025-2] 최민서 - SimPO: Simple Preference Optimization with a Reference-Free Reward [논문링크] https://arxiv.org/abs/2405.14734 SimPO: Simple Preference Optimization with a Reference-Free RewardDirect Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we proposarxiv.org DPO에 대해 잘 모른다면 논문을 이해하는데 힘.. 2025. 12. 31. [2025-2] 정유림 - Descending through a Crowded Valley —Benchmarking Deep Learning Optimizers paper link :https://arxiv.org/pdf/2007.01547 Descending through a Crowded Valley— Benchmarking Deep Learning Optimizers (ICML 2021)딥러닝에서 optimizer 선택은 중요한 결정 중 하나.Adam, SGD 부터 수많은 Adam 변형까지, 최근 수년간 제안된 optimizer는 수백개에 이른다.이 중 실제로 얼마나 의미 있는 차이가 있는지에 대한 대규모의 체계적인 optimizer 벤치마킹 연구 논문.논문 결과 요약optimizer 성능은 task-dependent어떤 optimizer도 모든 task에서 좋진않았음.여러 optimizer를 default로 설정해서 돌려보는것이 성능면에서 효율적인 선택... 2025. 12. 19. [2025-2] 박승원 - Learning representations by back-propagating errors 논문 링크: https://www.cs.utoronto.ca/~hinton/absps/naturebp.pdf 논문의 의의: 본 논문은 Back Propagation(오차역전파)를 인공신경망 학습에 체계적으로 적용하여, 다층 신경망 연구의 토대를 다진 연구.Existing WorksNeural Network를 만드려는 시도가 있었음.Input units과 output units이 직접적으로 연결되는 구조는 학습이 쉬웠으나, 흥미로운 결과가 도출되지는 않았음.Inputs과 outputs 사이에 hidden units이 존재하면 학습이 어려워지지만 더 흥미로운 결과를 도출함.이 hidden units이 어떤 상황에, 얼마 만큼 활성화 될 지를 결정하는 것이 학습에 중요함. Proposed methods같은 l.. 2025. 12. 19. [2025-2] 전연주 - Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning 논문 링크: https://arxiv.org/abs/2407.16920 Train-Attention: Meta-Learning Where to Focus in Continual Knowledge LearningPrevious studies on continual knowledge learning (CKL) in large language models (LLMs) have predominantly focused on approaches such as regularization, architectural modifications, and rehearsal techniques to mitigate catastrophic forgetting. However, thesarxiv.orgConference: Neur.. 2025. 12. 6. 이전 1 2 3 4 ··· 23 다음