본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글281

[2025-1] 박지원 - GPT-NeoX-20B: An Open-Source Autoregressive Language Model GPT-Neo 논문) https://arxiv.org/abs/2204.06745 개요 : GPT-NeoX-20B는 어떤 모델인가200억 개의 파라미터로 구성된 오픈 소스 자동 회귀 언어 모델자연어 처리에 매우 효과적이며, 특히 few-shot 학습에서 좋은 성능을 보임weight, model source 등이 모두 공개되어 있다!모델 설계 및 구현GPT-3의 구조를 참고하여 설계된 구조2-1. GPT-3과의 차이(GPT-J도 참고하였으나, 공개된 게 GPT-3뿐이라 이를 비교함. 좌측이 GPT-3, 우측이 Neo)매개변수 수1750억200억층 수9644숨은 차원 크기122886144헤드 수9664위치 임베딩trained 임베딩로타리 임베딩계산방식직렬계산병렬계산44개 layer // 6144의 hidden.. 2025. 1. 23.
[2025-1] 백승우 - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting Speculative RAG: Enhancing Retrieval Augmented Generation through DraftingRetrieval augmented generation (RAG) combines the generative abilities of large language models (LLMs) with external knowledge sources to provide more accurate and up-to-date responses. Recent RAG advancements focus on improving retrieval outcomes througharxiv.org0. AbstractRAG는 LLM의 생성 기능과 외부 지식을 결합하여 답변을 제공한다. 최근 RAG는 반복.. 2025. 1. 22.
[2025-1] 정지우 - Dueling Network Architectures for Deep Reinforcement Learning https://arxiv.org/abs/1511.06581https://youtu.be/u1yYf1PCTPg?si=FfbKvYVRSnOcBJ4I deep learning을 reinforcement learning에 접목시키려는 시도는 많았다. 여기서는 dueling network를 제안하는데, 이는 두 개의 분리된 estimator로 이루어져 있다. 하나는 state value function이고 하나는 state-dependent action advantage function이다. 이 방법은 더 나은 policy evaluation을 보여준다. 그리고 이 논문은 Atari 2600 도메인에서 SOTA를 찍었다. 기존에 RL에 쓰이는 neural network는 convolutional network, .. 2025. 1. 22.
[2025-1] 김학선 - Policy Gradient https://www.youtube.com/watch?v=t9wuRUFWkRQPolicy Gradient이전 강의에서 policy gradient 식은 다음과 같이 나타냈다.$$\nabla_\theta J_\theta=\nabla_\theta\int_\tau G_0\cdot P_\theta(\tau)d\tau$$위 식에서 $\nabla_\theta$는 $\tau$에 영향을 받지 않으므로 적분식 안으로 넣고, $\ln f(x)={f'(x)\over f(x)}$을 사용하여 식을 정리하게 되면, 다음과 같이 나타낼 수 있다.$$\int_\tau G_0\cdot(\nabla_\theta\ln P_\theta(\tau))\cdot P_\theta(\tau)d\tau$$여기서 $P_\theta(\tau)$를 조건부.. 2025. 1. 20.