본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기327

[2025-2] 박제우 - FLAT REWARD IN POLICY PARAMETER SPACE IMPLIES ROBUST REINFORCEMENT LEARNING https://openreview.net/forum?id=4OaO3GjP7k Flat Reward in Policy Parameter Space Implies Robust Reinforcement...Investigating flat minima on loss surfaces in parameter space is well-documented in the supervised learning context, highlighting its advantages for model generalization. However, limited attention...openreview.net 강화학습은 지도학습, 비지도학습과 함께 대표적인 인공지능 모델의 학습 방법 중 하나이다. Data Point와 Label로 학.. 2025. 7. 18.
[2025-2] 박지원 - QLORA QLORA: https://arxiv.org/abs/2305.14314 QLoRA: Efficient Finetuning of Quantized LLMsWe present QLoRA, an efficient finetuning approach that reduces memory usage enough to finetune a 65B parameter model on a single 48GB GPU while preserving full 16-bit finetuning task performance. QLoRA backpropagates gradients through a frozen, 4-bit quanarxiv.org 1. 서론: 대규모 언어 모델(LLM) fine tuning 도전과 QLORA의 등.. 2025. 7. 17.
[2025-2] 박제우 - GRAPH ATTENTION NETWORKS https://arxiv.org/abs/1710.10903 Graph Attention NetworksWe present graph attention networks (GATs), novel neural network architectures that operate on graph-structured data, leveraging masked self-attentional layers to address the shortcomings of prior methods based on graph convolutions or their approximationsarxiv.org 1. Introduction현재까지 CNN은 grid-like structure에서 높은 성능을 발휘했고, 이는 이미지 분류나 기계 .. 2025. 7. 13.
[2025-2] 정유림 - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding BERT : "대규모 unlabeled 데이터로 양방향 문맥을 깊이 있게 사전 학습한 후, 다양한 NLP task에 fine-tuning하면 강력한 성능을 발휘할 수 있다"는 것을 처음으로 입증한 모델BERT vs GPTBERTBidirectional LMLoves Fine TuningGPTLeft to Right LMHates Fine Tuningorange : pretrained modelsize : model size.배경 및 한계기존의 언어 모델들은 대부분 unidirectional (좌→우 또는 우→좌)이라 문맥을 한 방향에서만 볼 수 있었습니다.예: OpenAI GPT는 좌→우 방식이고, ELMo는 좌→우, 우→좌 독립적으로 훈련한 후 결합하는 구조였습니다.이 접근법은 문맥의 Bidirecti.. 2025. 7. 13.