Miscellaneous58 [2025-1] 노하림 - Beyond Scalar Reward Model: Learning Generative Judge from Preference Data https://arxiv.org/html/2410.03742v2 Beyond Scalar Reward Model: Learning Generative Judge from Preference DataBeyond Scalar Reward Model: Learning Generative Judge from Preference Data Ziyi Ye1, Xiangsheng Li2, Qiuchi Li3, Qingyao Ai1, Yujia Zhou1, Wei Shen2, Dong Yan2, Yiqun Liu1 1Department of Computer Science and Technology, Tsinghua University 2Baichuan AI arxiv.orgAbstract기존 방식에서는 preferen.. 2025. 3. 10. [2025-1] 주서영 - Deep Reinforcement Learning from Human Preferences RLHFNeurIPS 20173556회 인용⇒ OpenAI/Google에서 발표본 논문에서는 명확한 보상 함수 없이도 효과적인 학습이 가능하도록 인간의 선호(preference)를 활용하는 방법을 연구한다.기존의 RL 방식은 잘 정의된 보상 함수가 필요하지만 현실 세계에서 많은 문제들은 명시적인 보상 함수를 설계하기 어렵다. 저자들은 비전문가(non-expert) 인간이 두 개의 행동(trajectory segment) 중 선호하는 것을 선택하도록 하는 방법을 제안하고 이를 통해 학습 가능한 보상 함수를 추론하여 RL 시스템을 학습하였다.⇒ InstructGPT를 포함한 챗봇과 언어 모델에 RLHF(Reinforcement Learning from Human Feedback)를 적용할 수 있는 계기를 마.. 2025. 3. 6. [2025-1] 장인영 - 밑바닥부터 시작하는 딥러닝 리뷰, (CH 3.4) 3층 신경망 구현하기 넘파이의 다차원 배열을 사용하여, 3층 신경망에서 수행되는 입력부터 출력까지의 처리를 구현한다. 3층 신경망의 입력층은 2개, 첫 번째 은닉층은 3개, 두 번째 은닉층은 2개, 출력층은 2개의 뉴런으로 구성되어 있다. 3.4.1. 표기법 설명 먼저, 신경망 처리를 설명하기 위한 표기법을 알아본다.입력층의 뉴런에서 다음 층의 뉴런으로 향하는 선 위에 가중치를 표시한다. 가중치와 은닉층 뉴런의 오른쪽 위에는 (1)이 붙어 있고, 이는 1층의 가중치임을 뜻한다. 가중치의 오른쪽 아래의 두 숫자는 차례로 다음 층 뉴런과 앞 층 뉴런의 인덱스 번호이다. 3.4.2. 각 층의 신호 전달 구현하기 이제 입력층에서 1층의 첫 번째 뉴런으로 가는 신호를 살펴본다. 그림을 살펴보면, 편향을 뜻하는 뉴런이 추가되었다... 2025. 3. 5. [2025-1] 임준수 - 밑바닥부터 시작하는 딥러닝 리뷰, (CH 3.2) 활성화 함수 밑바닥부터 시작하는 딥러닝딥러닝 분야 부동의 베스트셀러!머리로 이해하고 손으로 익히는 가장 쉬운 딥러닝 입문서 이 책은 딥러닝의 핵심 개념을 ‘밑바닥부터’ 구현해보며 기초를 한 걸음씩 탄탄하게 다질 수 있도www.google.com -------------------------------------------------------------------퍼셉트론 복습b는 편향을 나타내는 매개변수로 뉴런이 얼마나 쉽게 활성화되는지를 제어한다. 한편 w는 각 신호의 가중치를 나타내는 매개변수로, 각 신호의 영향력을 제어한다. 아래는 위 식을 더 간결한 형태로 작성한 것이다. 이를 위해서 조건 분기의 동작(0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력)을 하나의 함수로 나타낸다. 그리고 밑에서 볼 계단함.. 2025. 3. 5. 이전 1 2 3 4 5 6 ··· 15 다음