Miscellaneous58 n-step TD vs n-step Q-learning 기존 td learning은 다음 스텝에 보상까지만 본 on-policy알고리즘이었다.여기서 n-step은 결론적으로 n-step까지에 보상을 본 on-policy알고리즘이라고 할 수 있을 것이다2-step td learning일때 식을 의미하게 된다.반면에 q-learning은 이와 비슷하지만 off-policy알고리즘이기 때문에 behaivor policy와 target policy가 다르게 된다.따라서 behavior policy와 target policy를 다르게 생각해서 sampling을 해줘야한다.behavior policy를 q라고 두고 target policy를 p라고 두고 importance sampling을 해준다면 2-step q learning은 다음과 같이 변하게 된다. 위에 Q-.. 2025. 1. 12. [2025-1] 박제우 - Anomaly Detection in IoT Sensor Energy Consumption Using LSTM Neural Networks and Isolation Forest 출처 : https://ieeexplore.ieee.org/document/10756980Q. Vo, P. Ea, S. Benzouaoua, O. Salem, and A. Mehaoua, “Anomaly Detection in IoT Sensor Energy Consumption Using LSTM Neural Networks and Isolation Forest,”서론: 본 연구는 IoT 센서를 통해 수집된 에너지 소비량의 이상치를 측정하고 미래의 소비를 예측하기 위한 모델을 고안하기 위해 LSTM 모델과 Isolation Forest 모델을 사용했다. IoT는 정보화 시대에서 차지하고 있는 비중이 큰 만큼 이를 올바르게 유지 보수 하는 것은 필수적인 과제이다. 특히 의료 시스템에서 IoT 기술은 환.. 2025. 1. 11. [2025-1] 김학선 - On-policy vs Off-policy https://www.youtube.com/watch?v=wVhH_3Td_R4On-Policy vs Off-PolicySARSA와 Q-Learning은 TD(Temporal Difference) 방식의 알고리즘으로, On-policy와 Off-policy라는 두 가지 접근 방식에 따라 구분된다. 이 두 개념의 차이는 Behavior Policy와 Target Policy의 관계에 있다.On-PolicyOn-policy는 Behavior Policy와 Target Policy가 동일한 정책이다. 즉, 행동을 선택할 때와 TD-target을 계산할 때 모두 같은 정책을 따른다.SARSA는 On-policy의 대표적인 예로, $\epsilon$-greedy와 같은 정책을 사용하여 행동을 선택하고, 그에 맞춰 .. 2025. 1. 8. [2025-1] 노하림 - 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4 강화학습의 핵심 목표> 현재 상태에서 시작하여 미래의 기대 리턴을 최대화하는 것이다. E[f(x)]$$E[f(x)] = \int f(x) p(x) \, dx$$\( \int \): 모든 가능한 \( x \) 값에 대해 함수 \( f(x) \cdot p(x) \)를 합산한다. 이때 $f(x)$는 보상(return), $p(x)$는 확률 분포 함수로 특정 값 $x$가 발생할 확률이다.Expected Return을 표현하는 두 가지 방법State value function $(V(s))$현재 상태에서 최적의 행동을 취했을 때 얻을 수 있는 기대 R.. 2025. 1. 7. 이전 1 ··· 5 6 7 8 9 10 11 ··· 15 다음