본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

분류 전체보기263

[2025-1] 김은서 - Temporal difference (TD) & SARSA https://youtu.be/vfLrBPYwuFA?si=Gs3LH3C7i-NgzAGa TD (Temporal difference) 방법이란?MC (Monte Carlo) 방법은 전체 에피소드가 끝난 후에 최종 보상을 바탕으로 학습을 진행한다. 이와 달리 TD (Temporal difference) 방법은 에피소드가 끝날 때까지 기다리지 않고, 상태의 값을 점진적으로 업데이트한다.MC 방법은 다음 식과 같이 나타낼 수 있다.$$ Q(S_{t}, a_{t}) \approx \frac{1}{N}\sum_{i=1}^N(R_{t+1}^{(i)}+ \gamma Q(S_{t+1}^{(i)}, a_{t+1}^{(i)})) = \overline{Q}_{N} $$위의 식을 아래와 같이 정리 할 수 있는데, 이것이 TD .. 2025. 1. 12.
n-step TD vs n-step Q-learning 기존 td learning은 다음 스텝에 보상까지만 본 on-policy알고리즘이었다.여기서 n-step은 결론적으로 n-step까지에 보상을 본 on-policy알고리즘이라고 할 수 있을 것이다2-step td learning일때 식을 의미하게 된다.반면에 q-learning은 이와 비슷하지만 off-policy알고리즘이기 때문에 behaivor policy와 target policy가 다르게 된다.따라서 behavior policy와 target policy를 다르게 생각해서 sampling을 해줘야한다.behavior policy를 q라고 두고 target policy를 p라고 두고 importance sampling을 해준다면 2-step q learning은 다음과 같이 변하게 된다. 위에 Q-.. 2025. 1. 12.
[2025-1] 임재열 - Unidirectional/Bidirectional LSTM, TCN(Temporal Convolution Network) - Unidirectional LSTM(Long Short-Term Memory)는 1997년 Sepp Hochreiter가 제안- Bidirectional LSTM는 2005년 Alex Gravesa와 J ̈urgen Schmidhubera가 제안- TCN(Temporal Convolutional Network)는 2018년 Shaojie Bai 등이 제안 [(Unidirectional) LSTM]https://glossary.midtown.ai/assets/l/long_short_term_memory_paper.pdf [Bidirectional LSTM]https://www.sciencedirect.com/science/article/pii/S0893608005001206?casa_token=xM-F.. 2025. 1. 11.
[2025-1] 박서형 - Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020 Learning Transferable Visual Models From Natural Language SupervisionState-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual coarxiv.org Clip은 기존의 비전 방식과 다르게 라벨과 이미지 쌍.. 2025. 1. 11.