본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Miscellaneous22

[2025-1] 정지우 - Dueling Network Architectures for Deep Reinforcement Learning https://arxiv.org/abs/1511.06581https://youtu.be/u1yYf1PCTPg?si=FfbKvYVRSnOcBJ4I deep learning을 reinforcement learning에 접목시키려는 시도는 많았다. 여기서는 dueling network를 제안하는데, 이는 두 개의 분리된 estimator로 이루어져 있다. 하나는 state value function이고 하나는 state-dependent action advantage function이다. 이 방법은 더 나은 policy evaluation을 보여준다. 그리고 이 논문은 Atari 2600 도메인에서 SOTA를 찍었다. 기존에 RL에 쓰이는 neural network는 convolutional network, .. 2025. 1. 22.
[2025-1] 정지우 - Q-learning (심화편) [혁펜하임 강화학습 4-2강 정리] https://youtu.be/k0VoyCZjbMY?si=jiSyLZeCr9w2zQDM  Q-learning은 보통 target policy를 greedy action으로(optimal policy), behavior policy는 $\epsilon-greedy$로 한다. target policy는 greedy policy이므로 $p(a_{t+1}|S_{t+1})=\delta(a_{t+1}-a^{*}_{t+1})$가 되고 $a^{*}_{t+1}=\arg\max_{a_{t+1}}{Q(S_{t+1},a_{t+1})}$이다. 이를 ${Q(S_{t},a_{t})}$에 대입하면 $ Q(S_t, a_t) = \int_{S_{t+1}, a_{t+1}} \big( R_t + \gamma Q(S_{t+1}, a_{t+1.. 2025. 1. 12.
n-step TD vs n-step Q-learning 기존 td learning은 다음 스텝에 보상까지만 본 on-policy알고리즘이었다.여기서 n-step은 결론적으로 n-step까지에 보상을 본 on-policy알고리즘이라고 할 수 있을 것이다2-step td learning일때 식을 의미하게 된다.반면에 q-learning은 이와 비슷하지만 off-policy알고리즘이기 때문에 behaivor policy와 target policy가 다르게 된다.따라서 behavior policy와 target policy를 다르게 생각해서 sampling을 해줘야한다.behavior policy를 q라고 두고 target policy를 p라고 두고 importance sampling을 해준다면 2-step q learning은 다음과 같이 변하게 된다. 위에 Q-.. 2025. 1. 12.
[2025-1] 박제우 - Anomaly Detection in IoT Sensor Energy Consumption Using LSTM Neural Networks and Isolation Forest 출처 : https://ieeexplore.ieee.org/document/10756980Q. Vo, P. Ea, S. Benzouaoua, O. Salem, and A. Mehaoua, “Anomaly Detection in IoT Sensor Energy Consumption Using LSTM Neural Networks and Isolation Forest,”​서론: 본 연구는 IoT 센서를 통해 수집된 에너지 소비량의 이상치를 측정하고 미래의 소비를 예측하기 위한 모델을 고안하기 위해 LSTM 모델과 Isolation Forest 모델을 사용했다. IoT는 정보화 시대에서 차지하고 있는 비중이 큰 만큼 이를 올바르게 유지 보수 하는 것은 필수적인 과제이다. 특히 의료 시스템에서 IoT 기술은 환.. 2025. 1. 11.