분류 전체보기330 [2025-1] 주서영 - Deep Reinforcement Learning from Human Preferences RLHFNeurIPS 20173556회 인용⇒ OpenAI/Google에서 발표본 논문에서는 명확한 보상 함수 없이도 효과적인 학습이 가능하도록 인간의 선호(preference)를 활용하는 방법을 연구한다.기존의 RL 방식은 잘 정의된 보상 함수가 필요하지만 현실 세계에서 많은 문제들은 명시적인 보상 함수를 설계하기 어렵다. 저자들은 비전문가(non-expert) 인간이 두 개의 행동(trajectory segment) 중 선호하는 것을 선택하도록 하는 방법을 제안하고 이를 통해 학습 가능한 보상 함수를 추론하여 RL 시스템을 학습하였다.⇒ InstructGPT를 포함한 챗봇과 언어 모델에 RLHF(Reinforcement Learning from Human Feedback)를 적용할 수 있는 계기를 마.. 2025. 3. 6. [2025-1] 현시은 - PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers 원본 논문 링크 : https://arxiv.org/abs/2406.12430 PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision MakersIn this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rul.. 2025. 3. 6. [2025-1] 장인영 - 밑바닥부터 시작하는 딥러닝 리뷰, (CH 3.4) 3층 신경망 구현하기 넘파이의 다차원 배열을 사용하여, 3층 신경망에서 수행되는 입력부터 출력까지의 처리를 구현한다. 3층 신경망의 입력층은 2개, 첫 번째 은닉층은 3개, 두 번째 은닉층은 2개, 출력층은 2개의 뉴런으로 구성되어 있다. 3.4.1. 표기법 설명 먼저, 신경망 처리를 설명하기 위한 표기법을 알아본다.입력층의 뉴런에서 다음 층의 뉴런으로 향하는 선 위에 가중치를 표시한다. 가중치와 은닉층 뉴런의 오른쪽 위에는 (1)이 붙어 있고, 이는 1층의 가중치임을 뜻한다. 가중치의 오른쪽 아래의 두 숫자는 차례로 다음 층 뉴런과 앞 층 뉴런의 인덱스 번호이다. 3.4.2. 각 층의 신호 전달 구현하기 이제 입력층에서 1층의 첫 번째 뉴런으로 가는 신호를 살펴본다. 그림을 살펴보면, 편향을 뜻하는 뉴런이 추가되었다... 2025. 3. 5. [2025-1] 임준수 - 밑바닥부터 시작하는 딥러닝 리뷰, (CH 3.2) 활성화 함수 밑바닥부터 시작하는 딥러닝딥러닝 분야 부동의 베스트셀러!머리로 이해하고 손으로 익히는 가장 쉬운 딥러닝 입문서 이 책은 딥러닝의 핵심 개념을 ‘밑바닥부터’ 구현해보며 기초를 한 걸음씩 탄탄하게 다질 수 있도www.google.com -------------------------------------------------------------------퍼셉트론 복습b는 편향을 나타내는 매개변수로 뉴런이 얼마나 쉽게 활성화되는지를 제어한다. 한편 w는 각 신호의 가중치를 나타내는 매개변수로, 각 신호의 영향력을 제어한다. 아래는 위 식을 더 간결한 형태로 작성한 것이다. 이를 위해서 조건 분기의 동작(0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력)을 하나의 함수로 나타낸다. 그리고 밑에서 볼 계단함.. 2025. 3. 5. 이전 1 ··· 23 24 25 26 27 28 29 ··· 83 다음