Miscellaneous59 [2025-1] 박경태 - 밑바닥부터 시작하는 딥러닝(CH 4.5): 학습 알고리즘 구현하기 1. 신경망 학습 개요신경망 학습은 가중치 매개변수와 편향을 조정하여 학습 데이터를 모델에 최적화하는 과정이다.1.1 학습 알고리즘의 4단계미니배치훈련 데이터에서 일부를 무작위로 선택하여 미니배치를 만든다.미니배치의 손실 함수를 최소화하는 것이 목표.기울기 산출손실 함수를 줄이기 위해 각 가중치의 기울기를 구한다.기울기는 손실 함수 값이 가장 작아지는 방향을 나타냄.매개변수 개선가중치 매개변수를 기울기 방향으로 업데이트한다.반복1~3단계를 반복하여 최적 가중치를 찾는다.이 방법을 확률적 경사 하강법(SGD, Stochastic Gradient Descent) 이라고 한다.2. 2층 신경망 구현하기2층 신경망(은닉층 1개)을 하나의 클래스로 구현한다.이 클래스는 TwoLayerNet이며, 신경망의 기본 구.. 2025. 3. 12. [2025-1] 노하림 - Beyond Scalar Reward Model: Learning Generative Judge from Preference Data https://arxiv.org/html/2410.03742v2 Beyond Scalar Reward Model: Learning Generative Judge from Preference DataBeyond Scalar Reward Model: Learning Generative Judge from Preference Data Ziyi Ye1, Xiangsheng Li2, Qiuchi Li3, Qingyao Ai1, Yujia Zhou1, Wei Shen2, Dong Yan2, Yiqun Liu1 1Department of Computer Science and Technology, Tsinghua University 2Baichuan AI arxiv.orgAbstract기존 방식에서는 preferen.. 2025. 3. 10. [2025-1] 주서영 - Deep Reinforcement Learning from Human Preferences RLHFNeurIPS 20173556회 인용⇒ OpenAI/Google에서 발표본 논문에서는 명확한 보상 함수 없이도 효과적인 학습이 가능하도록 인간의 선호(preference)를 활용하는 방법을 연구한다.기존의 RL 방식은 잘 정의된 보상 함수가 필요하지만 현실 세계에서 많은 문제들은 명시적인 보상 함수를 설계하기 어렵다. 저자들은 비전문가(non-expert) 인간이 두 개의 행동(trajectory segment) 중 선호하는 것을 선택하도록 하는 방법을 제안하고 이를 통해 학습 가능한 보상 함수를 추론하여 RL 시스템을 학습하였다.⇒ InstructGPT를 포함한 챗봇과 언어 모델에 RLHF(Reinforcement Learning from Human Feedback)를 적용할 수 있는 계기를 마.. 2025. 3. 6. [2025-1] 장인영 - 밑바닥부터 시작하는 딥러닝 리뷰, (CH 3.4) 3층 신경망 구현하기 넘파이의 다차원 배열을 사용하여, 3층 신경망에서 수행되는 입력부터 출력까지의 처리를 구현한다. 3층 신경망의 입력층은 2개, 첫 번째 은닉층은 3개, 두 번째 은닉층은 2개, 출력층은 2개의 뉴런으로 구성되어 있다. 3.4.1. 표기법 설명 먼저, 신경망 처리를 설명하기 위한 표기법을 알아본다.입력층의 뉴런에서 다음 층의 뉴런으로 향하는 선 위에 가중치를 표시한다. 가중치와 은닉층 뉴런의 오른쪽 위에는 (1)이 붙어 있고, 이는 1층의 가중치임을 뜻한다. 가중치의 오른쪽 아래의 두 숫자는 차례로 다음 층 뉴런과 앞 층 뉴런의 인덱스 번호이다. 3.4.2. 각 층의 신호 전달 구현하기 이제 입력층에서 1층의 첫 번째 뉴런으로 가는 신호를 살펴본다. 그림을 살펴보면, 편향을 뜻하는 뉴런이 추가되었다... 2025. 3. 5. 이전 1 2 3 4 5 6 ··· 15 다음