humancomputerinteraction1 [2025-1] 주서영 - Deep Reinforcement Learning from Human Preferences RLHFNeurIPS 20173556회 인용⇒ OpenAI/Google에서 발표본 논문에서는 명확한 보상 함수 없이도 효과적인 학습이 가능하도록 인간의 선호(preference)를 활용하는 방법을 연구한다.기존의 RL 방식은 잘 정의된 보상 함수가 필요하지만 현실 세계에서 많은 문제들은 명시적인 보상 함수를 설계하기 어렵다. 저자들은 비전문가(non-expert) 인간이 두 개의 행동(trajectory segment) 중 선호하는 것을 선택하도록 하는 방법을 제안하고 이를 통해 학습 가능한 보상 함수를 추론하여 RL 시스템을 학습하였다.⇒ InstructGPT를 포함한 챗봇과 언어 모델에 RLHF(Reinforcement Learning from Human Feedback)를 적용할 수 있는 계기를 마.. 2025. 3. 6. 이전 1 다음