본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
카테고리 없음

[2024-2] 박경태 - deeplearning: Probability and Information Theory

by corqjffp010 2025. 1. 3.

https://www.deeplearningbook.org/contents/prob.html

 

https://www.deeplearningbook.org/contents/prob.html

 

www.deeplearningbook.org

 

I. 확률 이론의 기초


1. 확률과 불확실성

확률 이론은 불확실성을 다루는 수학적 도구다. 많은 자연 현상과 시스템은 본질적으로 불확실성을 포함하고 있으며, 이를 정량적으로 표현하는 데 확률 개념이 활용된다.

불확실성은 다음과 같은 세 가지 주요 원천에서 발생한다:

  1. 내재적 확률성
    • 시스템 자체가 본질적으로 확률적으로 작동하는 경우.
    • 예: 양자역학에서의 입자의 움직임, 무작위로 섞인 카드의 순서.
  2. 불완전한 관측
    • 모든 변수를 관측하지 못해 발생하는 불확실성.
    • 예: 몬티홀 문제에서 문 뒤의 자동차 위치는 선택자의 관점에서 확률적으로 나타난다.
  3. 불완전한 모델링
    • 복잡한 현실을 단순화하기 위해 일부 정보를 생략하면서 생기는 불확실성.
    • 예: 로봇이 이산적인 공간으로 물체의 위치를 표현할 때의 정보 손실.

확률은 단순히 사건의 발생 빈도를 나타내는 것을 넘어, 불확실성을 정량화하고 합리적으로 추론할 수 있는 도구를 제공한다. 이는 확률적 규칙이 복잡한 세부 사항 없이도 많은 상황에서 효과적인 판단을 가능하게 한다.

 

2. 랜덤 변수와 확률 분포

랜덤 변수는 다양한 값들을 무작위로 취할 수 있는 변수다. 이를 통해 불확실한 상황을 수학적으로 표현할 수 있다. 랜덤 변수는 크게 이산 변수연속 변수로 나뉜다.

  1. 랜덤 변수의 종류
    • 이산 변수
      • 유한하거나 셀 수 있는 상태 집합을 가진다.
      • 예: 주사위의 눈, 코인의 앞뒷면.
    • 연속 변수
      • 실수의 연속적인 값을 가지며, 특정 값에 대해 확률이 아니라 확률 밀도를 다룬다.
      • 예: 온도, 길이.
  2. 확률 분포
    확률 분포는 랜덤 변수가 특정 값을 취할 확률 또는 확률 밀도를 기술한다.
    • 이산 변수의 확률 질량 함수 (PMF)
      • 특정 값이 발생할 확률을 정의.
      • 조건: 확률은 0 이상이고, 모든 상태의 확률의 합은 1이다.
    • 연속 변수의 확률 밀도 함수 (PDF)
      • 특정 값에 대한 확률 대신, 값의 범위에 대한 확률을 계산.
      • 조건: 밀도 함수는 음수가 아니고, 전체 영역에서 적분하면 1이 된다.

확률 분포는 랜덤 변수의 특성을 수학적으로 표현하고, 데이터 모델링 및 분석의 기초를 제공한다.

 

3. 조건부 확률과 독립성

조건부 확률은 어떤 사건이 발생했을 때 다른 사건이 발생할 확률을 나타낸다. 이는 사건 간의 관계를 분석하고 복잡한 상황을 이해하는 데 중요한 도구다.

    • 조건부 확률
      사건 \(\mathbf{A}\)가 발생했을 때 사건 \(\mathbf{B}\)가 발생할 확률은 다음과 같이 정의된다:  
      \[
      P(B|A) = \frac{P(A \cap B)}{P(A)} \quad (P(A) > 0)
      \]  
      조건부 확률은 사건 간의 의존 관계를 수학적으로 모델링한다.  
      예: 비가 올 때 우산을 가지고 있을 확률.

      독립성   
      두 사건 \(\mathbf{A}\)와 \(\mathbf{B}\)가 독립이라면, 한 사건의 발생이 다른 사건의 발생에 영향을 주지 않는다.  
      수학적으로:  
      \[
      P(A \cap B) = P(A)P(B)
      \]  
      예: 동전을 던지는 결과와 주사위 던지기는 서로 독립.

      조건부 독립성   
      두 사건이 특정 조건 \(\mathbf{C}\) 하에서 독립이라면, 조건부 독립성을 갖는다.  
      수학적으로:  
      \[
      P(A \cap B | C) = P(A | C)P(B | C)
      \]  
      예: 특정 날씨 조건 하에서 지역 간 강수량의 독립성.

조건부 확률과 독립성은 복잡한 시스템의 상호작용을 단순화하고, 확률적 모델링에서 중요한 역할을 한다.

 

II. 확률 분포의 특성과 활용


4. 확률 분포의 특성과 주요 예시

확률 분포는 랜덤 변수의 행동을 설명하며, 데이터 분석과 모델링의 기본 단위다. 기대값, 분산, 주요 분포는 이러한 분석에서 중요한 역할을 한다.

 

  • 확률 분포의 특성   
    • 기대값 (Expectation)   
      랜덤 변수의 평균적인 값을 나타냄.  
      \[
      E[X] = \sum_x P(x)x \quad \text{(이산 변수)}, \quad E[X] = \int_x p(x)x \, dx \quad \text{(연속 변수)}
      \]

    • 분산 (Variance)   
      랜덤 변수 값이 기대값에서 얼마나 떨어져 있는지 측정.  
      \[
      \text{Var}(X) = E[(X - E[X])^2]
      \]

    • 공분산 (Covariance)  
      두 랜덤 변수 간의 선형 관계를 나타냄.  
      \[
      \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]
      \]

    • 주요 확률 분포

      1. 베르누이 분포 (Bernoulli Distribution)   
      이진 결과를 가진 랜덤 변수에 사용.  
      \[
      P(X = x) = \phi^x (1-\phi)^{1-x}, \quad x \in \{0, 1\}
      \]

      2. 가우시안 분포 (Gaussian Distribution)  
      연속 변수를 모델링할 때 가장 널리 사용.  
      \[
      p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
      \]

      3. 혼합 분포 (Mixture Distribution)
      여러 개의 분포를 결합하여 복잡한 분포를 모델링.  
      \[
      p(x) = \sum_{i} \alpha_i p_i(x), \quad \alpha_i > 0, \, \sum_i \alpha_i = 1
      \]

이러한 분포와 특성들은 데이터의 특성과 패턴을 이해하고 예측 모델을 구축하는 데 핵심적인 도구로 작용한다.

 

5. 연속 변수와 변환

연속 변수와 확률 밀도 함수는 데이터의 연속적인 특성을 다룰 때 중요하다. 변수 간의 변환과 왜곡 보정은 확률 분포를 정확히 표현하기 위해 필수적인 개념이다.

 

이러한 개념들은 연속 변수를 다루는 모델링과 데이터 변환 과정에서 필수적인 역할을 한다.

 

III. 정보 이론과 딥러닝 연결


6. 정보 이론의 기초

정보 이론은 확률 분포의 불확실성을 측정하고 분포 간의 차이를 정량화하는 강력한 도구다. 이는 딥러닝에서 모델의 성능을 분석하고 최적화하는 데 자주 활용된다.

 

  • 셀프 정보량 (Self-Information)  
    어떤 사건 \(x\)의 정보량은 그 사건의 발생 확률 \(P(x)\)에 반비례한다:  
    \[
    I(x) = -\log P(x)
    \]  
    확률이 낮을수록 정보량이 크다.
  • 엔트로피 (Entropy) 
    랜덤 변수의 평균적인 불확실성의 측도:  
    \[
    H(X) = -\sum_{x} P(x) \log P(x) \quad \text{(이산 변수)}, \quad H(X) = -\int p(x) \log p(x) \, dx \quad \text{(연속 변수)}
    \]  
    분포가 균일할수록 엔트로피가 크다.

  • KL 발산 (Kullback-Leibler Divergence)  
    두 확률 분포 \(P\)와 \(Q\)의 차이를 측정:  
    \[
    D_{KL}(P \| Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)} \quad \text{(이산 변수)}
    \]  
    \[
    D_{KL}(P \| Q) \geq 0, \quad D_{KL}(P \| Q) = 0 \text{일 때 } P = Q.
    \]  
    비대칭적이므로 \(D_{KL}(P \| Q) \neq D_{KL}(Q \| P)\)인 경우가 많다.

  • 교차 엔트로피 (Cross-Entropy)
    두 분포 \(P\)와 \(Q\)를 비교하여 평균적인 불확실성을 계산:  
    \[
    H(P, Q) = -\sum_x P(x) \log Q(x)
    \]  
    실제 \(P\)를 \(Q\)로 근사할 때 자주 사용.
  1.  

정보 이론의 이러한 개념들은 딥러닝에서 손실 함수 설계, 분포 비교, 모델의 불확실성 평가 등에 핵심적으로 사용된다.

 

III. 정보 이론과 딥러닝 연결


7. 구조화된 확률 모델

구조화된 확률 모델은 확률 분포를 효율적으로 표현하기 위해 그래프를 사용하여 변수 간의 관계를 시각적으로 나타낸다. 이는 딥러닝에서 복잡한 데이터의 구조를 모델링하는 데 유용하다.

 

  • 구조화된 모델의 개념  
    - 확률 분포를 단일 함수로 표현하는 대신 여러 작은 분포로 나누어 표현.  
    - 변수 간의 조건부 독립성 관계를 반영하여 계산 및 파라미터 효율성을 높임.

  • 그래프의 종류   
    1. 방향 그래프 (Directed Graphical Models)
       조건부 확률로 표현되는 분포를 나타냄:  
       \[
       P(x_1, x_2, \dots, x_n) = \prod_{i} P(x_i | \text{Parents}(x_i))
       \]  
       예: 베이지안 네트워크.

    2. 비방향 그래프 (Undirected Graphical Models)  
       함수 기반으로 변수 간의 상호작용을 표현:  
       \[
       P(x) = \frac{1}{Z} \prod_{C} \phi_C(x_C)
       \]  
       여기서 \(Z\)는 정규화 상수, \(\phi_C\)는 클리크 함수.  
       예: 마코프 랜덤 필드.

    예제: 조건부 독립성 활용   
    세 변수 \(A\), \(B\), \(C\)가 있을 때, \(A\)와 \(C\)가 \(B\) 조건에서 독립이라면:  
    \[
    P(A, C | B) = P(A | B) P(C | B)
    \]

    활용 사례   

    1. 딥러닝에서 Latent Variable 모델링  
       숨겨진 변수(라틴 변수)를 포함하는 모델 설계.  
       예: 변분 오토인코더(VAE).

    2. 확률적 그래프 기반 모델  
       복잡한 데이터의 상관관계를 반영하여 학습.  

    구조화된 확률 모델은 변수 간의 관계를 효율적으로 표현하며, 복잡한 데이터 세트를 다룰 때 강력한 도구로 작용한다.

 

8. 딥러닝과 확률 개념의 연결

확률 이론과 정보 이론의 개념은 딥러닝에서 모델 설계와 학습의 근본적인 요소로 활용된다. 특히, 불확실성의 표현, 데이터 분포 추정, 손실 함수 정의 등에서 중요한 역할을 한다.

  1. 확률적 모델링의 딥러닝 적용
    • 딥러닝 모델은 종종 확률 분포를 직접 모델링하거나 근사함.
      • 변분 추론 (Variational Inference)
        • 잠재 변수 기반 모델에서 근사 분포를 최적화.
        • 예: 변분 오토인코더(VAE).
      • 확률적 그래디언트 기법
        • 랜덤 샘플링 기반의 최적화 기법.
        • 예: 스토캐스틱 그래디언트 디센트(SGD).
  2. 손실 함수와 확률 개념
    • 딥러닝에서 손실 함수는 종종 정보 이론의 개념에 기반:
      • 교차 엔트로피 손실
        • 분류 문제에서 실제 라벨 분포와 예측 분포 간의 차이를 최소화.
      • KL 발산
        • 두 확률 분포 간의 차이를 줄이기 위한 목표로 활용.
  3. 신경망에서 불확실성 표현
    • 딥러닝 모델은 종종 예측에 대한 불확실성을 정량화해야 함:
      • 베이지안 신경망
        • 가중치에 대한 확률 분포를 학습하여 불확실성을 표현.
      • 드롭아웃 기반 불확실성 추정
        • 드롭아웃을 활용해 모델의 예측 분포를 근사.
  4. 생성 모델과 확률 분포
    • 딥러닝에서 생성 모델은 데이터의 분포를 학습:
      • GAN (Generative Adversarial Networks)
        • 생성자와 판별자의 상호작용으로 데이터 분포 학습.
      • VAE (Variational Autoencoders)
        • 잠재 변수와 데이터 분포 간의 관계를 모델링.

확률 이론과 정보 이론은 딥러닝 모델을 설계하고 최적화하며, 데이터의 불확실성을 관리하는 데 핵심적인 역할을 한다. 이를 통해 모델의 일반화 성능을 높이고 복잡한 데이터를 다룰 수 있다.