전체 글301 [2025-1] 염제원 - SELF-RAG: Self-Reflective Retrieval-Augmented Generation SELF-RAG: Self-Reflective Retrieval-Augmented GenerationSELF-RAG는 Retrieval-Augmented Generation(RAG)에 자기반영(Self-reflection) 기능을 결합한 프레임워크임. 기존 RAG가 항상 K개 문서를 붙이는 방식이었던 것과 달리, SELF-RAG는 “검색이 필요한 시점”과 “검색 결과가 답변에 어떻게 기여하는지”를 모델이 스스로 평가하도록 설계했음.1. 문제 설정대규모 언어 모델(LLM)은 파라메트릭 지식만으로 답변을 생성하다가, 사실 오류를 포함하는 결과를 자주 만들어냈음. 이를 보완하기 위해 검색을 결합한 RAG가 등장했지만, 무조건 정해진 개수만큼 문서를 가져오는 방식이라, 불필요한 맥락을 끼워 넣거나, 중요한 검증.. 2025. 1. 8. [2025-1] 김학선 - On-policy vs Off-policy https://www.youtube.com/watch?v=wVhH_3Td_R4On-Policy vs Off-PolicySARSA와 Q-Learning은 TD(Temporal Difference) 방식의 알고리즘으로, On-policy와 Off-policy라는 두 가지 접근 방식에 따라 구분된다. 이 두 개념의 차이는 Behavior Policy와 Target Policy의 관계에 있다.On-PolicyOn-policy는 Behavior Policy와 Target Policy가 동일한 정책이다. 즉, 행동을 선택할 때와 TD-target을 계산할 때 모두 같은 정책을 따른다.SARSA는 On-policy의 대표적인 예로, $\epsilon$-greedy와 같은 정책을 사용하여 행동을 선택하고, 그에 맞춰 .. 2025. 1. 8. [2025-1] 노하림 - 상태 가치 함수 V & 행동 가치 함수 Q & Optimal policy https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4 강화학습의 핵심 목표> 현재 상태에서 시작하여 미래의 기대 리턴을 최대화하는 것이다. E[f(x)]$$E[f(x)] = \int f(x) p(x) \, dx$$\( \int \): 모든 가능한 \( x \) 값에 대해 함수 \( f(x) \cdot p(x) \)를 합산한다. 이때 $f(x)$는 보상(return), $p(x)$는 확률 분포 함수로 특정 값 $x$가 발생할 확률이다.Expected Return을 표현하는 두 가지 방법State value function $(V(s))$현재 상태에서 최적의 행동을 취했을 때 얻을 수 있는 기대 R.. 2025. 1. 7. [2025-1] 김학선 - Bellman Equation https://www.youtube.com/watch?v=gA-6J-nl4c4&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=5Bellman Equation벨만 방정식은 특정 상태에서 최선의 선택을 하기 위해 현재 가치와 미래 가치를 연결하여 정의하는 방정식이다. 벨만 방정식을 증명하기 전 몇가지 알아야 할 식들은 다음과 같다.상태 가치 함수:$V(s_t)=\int_{a_t:a_\infty}G_t\cdot P(a_t,s_{t+1},a_{t+1},\cdots|s_t)d_{a_t:a_\infty}$행동 가치 함수:$Q(s_t,a_t)=\int_{s_{t+1}:a_\infty}G_t\cdot P(s_{t+1},a_{t+1},\cdots|s_t,a_t)d_{s_{t+1}:a_.. 2025. 1. 5. 이전 1 ··· 43 44 45 46 47 48 49 ··· 76 다음