Miscellaneous85 [2025-1] 조환희 - Flow-based Models 1. 사전지식아래와 같은 식이 있다고 하자.여기서 a는 scale, b 는 bias 이다.이떄 역함수를 표현하는 방법은 아래와 같이 된다.행렬에서도 똑같다.W는 scale 행렬, B는 bias 행렬이다. y = Wx + B 처럼 벡터 공간(행렬)에서 선형변환(Linear Transformation) Wx과 Bias 행렬 B가 더해지는 변환을 Affine Transformation(아핀변환) 이라고 한다. 생성모델을 만들 때 우리는 최대한 특정 y=f(x)와 비슷한 잠재변수 z를 계산해 모델을 만든다. 그럼 아래와 같이 z를 이용해 x와 최대한 닮은 z를 계산할 수 있을 것이다.Flow based 모델은 변수 x를 최대한 잘 표현할 수 있는 잠재변수 z를 계산하는 z = f(x)를 학습하되, f의 역함수 .. 2025. 2. 15. [2025-1] 박제우 - A Unified Approach to Interpreting Model Predictions https://arxiv.org/abs/1705.07874 A Unified Approach to Interpreting Model PredictionsUnderstanding why a model makes a certain prediction can be as crucial as the prediction's accuracy in many applications. However, the highest accuracy for large modern datasets is often achieved by complex models that even experts struggle to interpret, such as ensemble or deep learning models, cre...arxiv.org.. 2025. 2. 8. [2025-1] 박서형 - Distilling the Knowledge in a Neural Network https://arxiv.org/abs/1503.02531 Distilling the Knowledge in a Neural NetworkA very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersomearxiv.org 1. Introductionmachine learning 알고리즘의 성능을 향상시키는 일반적인 방법.. 2025. 2. 1. [2025-1] 노하림 - A2C A2C 알고리즘A2C는 정책 기울기(Policy Gradient) 방법을 기반으로 하며, 액터-크리틱 구조를 사용하여 정책(Actor)과 가치 함수(Critic)를 동시에 학습하는 알고리즘이다. A2C는 기존 강화 학습 알고리즘의 단점을 보완하며, 샘플의 분산을 줄이고 안정적인 학습을 가능하게 한다. 또한 정책과 가치 함수를 동시에 학습하며 정책의 안정성과 학습 효율성을 모두 높인다. 어드밴티지 함수\[ A(s, a) = Q(s, a) - V(s) \]\( Q(s, a) \): 특정 상태에서 특정 행동의 가치 \( V(s) \): 상태의 가치Q함수에 상태 함수 $s_t$만 들어간 경우 액션 함수가 아닌 상태 함수가 들어가 적분에 영향을 주지 않는다. 이 경우 Q함수의 구조가 단순해지며 액션에 대한 정보가.. 2025. 1. 26. 이전 1 ··· 9 10 11 12 13 14 15 ··· 22 다음