전체 글263 [2025-1] 유경석 - Road Extraction by Deep Residual U-Net https://arxiv.org/pdf/1711.10684AbstractRoad extraction은 원격 감지 이미지 분석 분야의 뜨거운 연구 주제Residual learning과 U-Net의 결합 구조를 통해 Road extraction 수행 1) Residual unit은 Deep network의 training이 더욱 쉽게 이루어지도록 함.2) Skip connection은 information propagation을 통해, 더 적은 parameter로 더 좋은 성능을 보임.Public road dataset을 분석하는 연구에서, 다른 network에 비해 ResUNet이 더 좋은 성능을 보였음. 1. IntorductionRoad extraction원격 감지 분야의 대표적인 기술로, 자동화 네비.. 2025. 1. 17. [2025-1] 김학선 - Policy-based. https://www.youtube.com/watch?v=AHCt4Phgn9k&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=21혁펜하임의 "트이는" 강화 학습, 10-1 Policy-based앞선 영상에서의 DQN, DDQN, Dueling DQN과 같은 방식들은 Value-based 방식으로, $\epsilon$-greedy를 통해 어떤 상태(s)에서 $\epsilon$의 확률로 랜덤하게 행동하고 그 중에서의 최선의 Q 값을 찾는 방식이다.Policy-basedPolicy-baesd 방식은 주어진 상황에서 어떤 선택을 선택할지에 대한 정책을 학습하여 추후 정책을 매개변수화된 확률 분포로 나타낸다. Policy-based가 Value-based 방식의 차이점은 다음과.. 2025. 1. 14. [2025-1] 노하림 - MC vs TD https://www.youtube.com/watch?v=STcbD5VhP3Y&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=9 MC vs TDMC는 전체 에피소드를 완료한 후 Q value를 평균적으로 업데이트한다. 샘플링 바이어스가 없어 편향이 없는 추정치를 제공하지만 계산량이 느리다. TD는 현재 상태에서의 예측값을 이용하여 Q value를 업데이트한다. 샘플링 과정에서 바이어스가 발생할 수 있다. Bias$$MC : v_\pi (s_t) = E[G_t]$$$$TD : v_\pi (s_t) = E[r_{t+1} + \gamma v_\pi(s_{t+1})$$MC와 TD의 근간이 되는 수식을 보면 MC는 리턴의 평균을 향해 업데이트되어있다. 이유는 가치 함수의 정의가.. 2025. 1. 14. [2025-1] 정지우 - Q-learning (심화편) [혁펜하임 강화학습 4-2강 정리] https://youtu.be/k0VoyCZjbMY?si=jiSyLZeCr9w2zQDM Q-learning은 보통 target policy를 greedy action으로(optimal policy), behavior policy는 $\epsilon-greedy$로 한다. target policy는 greedy policy이므로 $p(a_{t+1}|S_{t+1})=\delta(a_{t+1}-a^{*}_{t+1})$가 되고 $a^{*}_{t+1}=\arg\max_{a_{t+1}}{Q(S_{t+1},a_{t+1})}$이다. 이를 ${Q(S_{t},a_{t})}$에 대입하면 $ Q(S_t, a_t) = \int_{S_{t+1}, a_{t+1}} \big( R_t + \gamma Q(S_{t+1}, a_{t+1.. 2025. 1. 12. 이전 1 ··· 30 31 32 33 34 35 36 ··· 66 다음