전체 글404 [2025-2] 박승원 - Learning representations by back-propagating errors 논문 링크: https://www.cs.utoronto.ca/~hinton/absps/naturebp.pdf 논문의 의의: 본 논문은 Back Propagation(오차역전파)를 인공신경망 학습에 체계적으로 적용하여, 다층 신경망 연구의 토대를 다진 연구.Existing WorksNeural Network를 만드려는 시도가 있었음.Input units과 output units이 직접적으로 연결되는 구조는 학습이 쉬웠으나, 흥미로운 결과가 도출되지는 않았음.Inputs과 outputs 사이에 hidden units이 존재하면 학습이 어려워지지만 더 흥미로운 결과를 도출함.이 hidden units이 어떤 상황에, 얼마 만큼 활성화 될 지를 결정하는 것이 학습에 중요함. Proposed methods같은 l.. 2025. 12. 19. [2025-2] 김지원 - ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION 논문 제목: "ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION"논문 정보: ICLR 2015에서 발표된 논문논문 링크: https://arxiv.org/pdf/1412.69800. 초록저자는 lower-order momentum의 adaptive estimates(적응적 추정치)를 기반으로 하는 확률론적 목표 함수의 1차 gradient 기반 최적화 알고리즘인 ADAM을 소개 다시 말해Adam은 1차 moment인 평균과 2차 moment인 비중심화된 분산(uncentered variance)을 활용하고, 이에 대한 적응적 추정치를 활용하여 stepsize를 파라미터 별로 조정한다 이 방법은 실행하기 편하고 계산적으로 효율적이며, 적은 메모리 양으로 요구하는 동시에 grad.. 2025. 12. 15. [2025-2] 전연주 - Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning 논문 링크: https://arxiv.org/abs/2407.16920 Train-Attention: Meta-Learning Where to Focus in Continual Knowledge LearningPrevious studies on continual knowledge learning (CKL) in large language models (LLMs) have predominantly focused on approaches such as regularization, architectural modifications, and rehearsal techniques to mitigate catastrophic forgetting. However, thesarxiv.orgConference: Neur.. 2025. 12. 6. [2025-2] 박제우 - The Impact of Reasoning Step Length on Large Language Models https://arxiv.org/abs/2401.04925 The Impact of Reasoning Step Length on Large Language ModelsChain of Thought (CoT) is significant in improving the reasoning abilities of large language models (LLMs). However, the correlation between the effectiveness of CoT and the length of reasoning steps in prompts remains largely unknown. To shed light on thiarxiv.org본 논문은 2024 ACL Findings에 등재된 논문으로, 2025년.. 2025. 12. 6. 이전 1 ··· 9 10 11 12 13 14 15 ··· 101 다음