본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

강화 학습5

[2025-1] 김학선 - LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic Reward https://arxiv.org/abs/2401.03374 LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic RewardIn software development, the predominant emphasis on functionality often supersedes security concerns, a trend gaining momentum with AI-driven automation tools like GitHub Copilot. These tools significantly improve developers' efficiency in functional codearxiv.orgAbstract최근 AI 기.. 2025. 3. 18.
[2025-1] 김학선 - Code Security Vulnerability Repair Using Reinforcement Learning with Large Language Models https://arxiv.org/abs/2401.07031 Code Security Vulnerability Repair Using Reinforcement Learning with Large Language ModelsWith the recent advancement of Large Language Models (LLMs), generating functionally correct code has become less complicated for a wide array of developers. While using LLMs has sped up the functional development process, it poses a heavy risk to code secarxiv.orgIntroducti.. 2025. 2. 18.
[2025-1] 김학선 - Policy Gradient https://www.youtube.com/watch?v=t9wuRUFWkRQPolicy Gradient이전 강의에서 policy gradient 식은 다음과 같이 나타냈다.$$\nabla_\theta J_\theta=\nabla_\theta\int_\tau G_0\cdot P_\theta(\tau)d\tau$$위 식에서 $\nabla_\theta$는 $\tau$에 영향을 받지 않으므로 적분식 안으로 넣고, $\ln f(x)={f'(x)\over f(x)}$을 사용하여 식을 정리하게 되면, 다음과 같이 나타낼 수 있다.$$\int_\tau G_0\cdot(\nabla_\theta\ln P_\theta(\tau))\cdot P_\theta(\tau)d\tau$$여기서 $P_\theta(\tau)$를 조건부.. 2025. 1. 20.
[2025-1] 김학선 - On-policy vs Off-policy https://www.youtube.com/watch?v=wVhH_3Td_R4On-Policy vs Off-PolicySARSA와 Q-Learning은 TD(Temporal Difference) 방식의 알고리즘으로, On-policy와 Off-policy라는 두 가지 접근 방식에 따라 구분된다. 이 두 개념의 차이는 Behavior Policy와 Target Policy의 관계에 있다.On-PolicyOn-policy는 Behavior Policy와 Target Policy가 동일한 정책이다. 즉, 행동을 선택할 때와 TD-target을 계산할 때 모두 같은 정책을 따른다.SARSA는 On-policy의 대표적인 예로, $\epsilon$-greedy와 같은 정책을 사용하여 행동을 선택하고, 그에 맞춰 .. 2025. 1. 8.