분류 전체보기148 [2024-1] 주서영 - Don't Decay the Learning Rate, Increase the Batch Size Abstract 모델은 generalizaion(일반화)를 시키는 것이 목표인데 이 논문은 그 방법 중 학습률(learning rate)와 배치 크기(batch size)에 대해 다룬다. 일반적으로 학습률을 감소시키는 대신 훈련 중에 배치 크기를 증가시키는 방법을 제안했다. 최적화(Optimization) 방법 중 SGD, SGD momentum, Nesterov momentum, Adam을 쓸 때에 동등한 테스트 정확도를 달성하면서 배치 크기를 증가시킴에 따라 parameter 업데이트 수를 줄이고, 훈련 시간을 단축했다. 1. Introduction 확률적 경사 하강법(SGD)은 딥러닝에서 가장 널리 사용되는 최적화 기법이지만 큰 배치 크기로 훈련할 때 테스트 세트의 정확도가 떨어지는 일반화 문제가 .. 2024. 4. 12. [2024-1] 염제원 - Meta-Learning in Neural Networks: A Survey https://arxiv.org/abs/2004.05439 Meta-Learning in Neural Networks: A Survey The field of meta-learning, or learning-to-learn, has seen a dramatic rise in interest in recent years. Contrary to conventional approaches to AI where tasks are solved from scratch using a fixed learning algorithm, meta-learning aims to improve the learni arxiv.org Abstract 최근 "Learning-to-Learn"으로 표방되는 "Meta-Learning"의.. 2024. 4. 12. [2024-1] 박태호 - Large Language Models are Human-Level Prompt Engineers https://arxiv.org/abs/2211.01910 Large Language Models Are Human-Level Prompt Engineers By conditioning on natural language instructions, large language models (LLMs) have displayed impressive capabilities as general-purpose computers. However, task performance depends significantly on the quality of the prompt used to steer the model, and mo arxiv.org Abstract. LLM은 여러 방면으로 높은 성능을 보이지만, 모델을 조종하.. 2024. 4. 12. [2024-1] 양소정 - Generative Adversarial Networks https://arxiv.org/abs/1406.2661 Generative Adversarial Networks We propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability that arxiv.org Abstract 적대적(adversarial) 프로세스를 통해 생성 모델을 추정하는 프레임워크 제안함 이 프레임워크는 'm.. 2024. 4. 10. 이전 1 ··· 22 23 24 25 26 27 28 ··· 37 다음