Miscellaneous76 [2025-1] 전진우 - Monte carlo method 2-5강에서 이어서 진행됩니다.https://www.youtube.com/watch?v=bCifW0SENGs&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=7&ab_channel=%ED%98%81%ED%8E%9C%ED%95%98%EC%9E%84%7CAI%26%EB%94%A5%EB%9F%AC%EB%8B%9D%EA%B0%95%EC%9D%982-5강에 따르면 optimal policy는 다음과 같은 방식으로 구할 수 있다.앞서 2-5강에서는 가치함수를 구하는 방법은 다음과 같이 구할 수 있다.하지만 우리는 probability 전이확률을 모르는 경우가 너무나도 많다(예를 들어서 체스, 바둑 같은 게임 환경에서 모든 상태의 전이 확률을 계산하기는 불가능하다). 이럴 경우에 큰.. 2025. 1. 4. [2025-1] 정지우 - Optimal policy 쉬운 설명 (혁펜하임 강화학습 3-1강 정리) https://youtu.be/cn7IAfgPasE?si=DA7LiUsUHAFvcvCj Recap. optimal policy란?state value function을 maximize하는 policyexpected return을 최대화(과거의 action과 무관하게 앞으로 기대되는 reward를 maximize) Recap. Bellman Equation에서 state value function을 action value function으로 나타내면 optimal policy를 구하기 위해 $V(S_t)$를 maximize할 것.$V(S_t)$를 maximize하는 policy $p(a_t|S_t)$를 찾으면 됨.$p(a_t|S_t)$는 probability distribution 그런데 $V(S_t)$를.. 2025. 1. 4. [2024-2] 문지영 - deeplearning: Deep Feedforward Networks (1) https://www.deeplearningbook.org/contents/mlp.html https://www.deeplearningbook.org/contents/mlp.html www.deeplearningbook.org I. Deep Feedforward Networks0. 심층신경망이란?deep feedforward networks는 deeplearning의 핵심으로, 목표는 어떤 함수 $f^*$를 근사approximate하는 것이다. 이 순방향 신경망은 하나의 사상map $y= f(x;\theta)$를 정의하고, 함수를 가장 잘 근사하는 파라미터 $\theta$의 값들을 학습한다. (1) feedforward정보가 앞쪽으로만 흘러감: $x$를 입력으로 하여 평가되는 함수를 통과한 후 출력 $.. 2025. 1. 4. [2024-2] 문지영 - deeplearning: Introduction https://www.deeplearningbook.org/contents/intro.html https://www.deeplearningbook.org/contents/intro.html www.deeplearningbook.org I. 인공지능이란0. 인공지능의 가능성 프로그래밍이 가능한 컴퓨터가 등장했을 때부터 이러한 기계가 인간과 같은 지능을 갖출 수 있을까에 대한 궁금증이 있어왔음. 인간에게는 직관적이고 쉬운 문제인 단어 인식이나 이미지에서 특정 얼굴을 알아보는 것과 같은 문제가 컴퓨터에게는 어려운 과제. 컴퓨터는 개념들의 계통구조를 이용하여 경험으로부터 배우고 세상을 이해할 수 있음. 복잡한 개념의 하위 개념, 그리고 그 개념의 하위 개념으로 내려가는 계통구조를 활용: 심층학습deep lear.. 2025. 1. 4. 이전 1 ··· 11 12 13 14 15 16 17 ··· 19 다음