강력한 시냅스 수정 규칙을 통해 input unit과 output unit 간의 연결 강도를 조정
학습 규칙을 통해 희망 출력 벡터와 실제 출력 벡 간의 차이를 최소화하는 목표
Hidden unit의 도입은 학습을 더 복잡하게 만듦.
hidden unit의 actual/desired state는 task에서 정의되지 않음
퍼셉트론의 경우, input과 output 사이에 feature analyser가 있지만, input vector에 의해서만 hidden unit의 상태가 결정되므로 이는 진정한 hidden unit이 아님. 이 경우, representation 학습은 이루어지지 않음.
Desired input-output behavior를 달성하기 위해서는 학습 과정에서 hidden unit이 어떤 상황에서 활성화되는지를 결정하고, 이러한 unit들이 무엇을 나타내야 하는지도 학습해야 함.
2. Information
신경망 학습에서 역전파(back-propagation) 알고리즘의 도입은 중요한 발전을 가져옴.
역전파는 신경망의 출력 오류를 계산하고, 이를 네트워크의 각 가중치에 효율적으로 전파하여 학습을 가능하게 만듦.
역전파 알고리즘의 핵심은 연쇄 법칙(chain rule)을 사용하여 오류를 각 층의 가중치에 전파하며, 이를 통해 가중치 업데이트가 이루어짐.
이러한 학습 방식은 다층 퍼셉트론(multi-layer perceptron)과 같은 구조에서 복잡한 함수 근사를 가능하게 하여, 기존의 단순한 퍼셉트론 모델의 한계를 극복함.
역전파를 통해 신경망은 복잡한 패턴을 학습할 수 있으며, 이는 음성 인식, 이미지 분류, 자연어 처리 등의 다양한 응용 프로그램에서 효과적으로 활용됨.
논문은 역전파 알고리즘의 수학적 기초와 구현 방법을 설명하며, 이를 기반으로 신경망 학습의 효율성과 성능을 향상시킬 수 있는 방안을 제시함.
3. Methodology
3-1.Basic Form
가장 간단한 형태: 가장 아래에 input unit layer, 중간 layer, 가장 위에 output unit layer
layer 내에서 혹은 위에서 아래 layer로는 connection이 있을 수 없으며, 중간 layer는 skip할 수 있음
각 layer 안에 있는 unit들은 parallel 하지만 서로 다른 layer에서는 state가 sequential하게 정해짐 (아래에서부터 위로, output unit의 state가 정해질 때까지)
input unit의 state를 설정해서 input vector를 network에 나타나도록 함. 그리고 나서 lower layer에 식 1,2를 적용해여 각 layer에 있는 unit의 state를 결정함
unit j의 total input xj은 1) j에 연결된 unit의 output yjyj와 2) 가중치 wji에 대한 선형함수임
각 unit에 extra input을 주면 bias를 반영할 수 있음. 값은 항상 1이고, 이 값에 대한 가중치는 bias라고 불리며 opposite sign의 threshold와 동일함
한 unit의 ouput yj는 total input xj에 대한 비선형 함수임
3-2.Find Weights
- 목표: 이 network에서 각 input vector에 의해 산출되는 output vector가 desired output vector와 가까워지도록 하는 가중치 찾기 -> 이를 위해 total error라는 개념을 활용
total error: network로 산출된 output vector와 desired output vector의 차이
c: 각 input-output case에 대한 인덱스, j: output unit에 대한 인덱스
y: output unit의 actual state, d: output unit의 desired state
gradient descent로 total error를 최소화하기 위해서는 각 가중치에 대하여 EE의 편미분을 계산해야함. 이는 각 input-output case에 대한 편미분을 다 더한 것과 같음
각 가중치에 대한 오차의 편미분은 two pass로 계산됨
forward pass : 각 layer에서 unit의 state는 lower layer unit으로부터 받은 input에
를 적용해서 구함
backward pass: top layer에서 bottom layer로 derivative를 propagate하는 것
3-3.Backward Pass
Update Weights
Summary
역전파 알고리즘(Backpropagation)의 주요 개념은 네트워크의 오차(error)를 계산하고 이를 네트워크의 가중치 업데이트에 사용하는 것.
네트워크의 출력과 목표값 간의 오차는 손실 함수(loss function) E로 정의되며, 이는 다음과 같이 표현됨:
여기서 yk는 네트워크의 출력, tk는 목표 출력입니다. 이 손실 함수는 제곱 오차(Squared Error)로 정의됨.
연쇄 법칙(chain rule)을 사용하여 각 가중치 wi_{ij}wij에 대한 손실 함수의 기울기를 계산함
여기서 δj는 j번째 뉴런의 오차 항(델타 값), xi는 i번째 뉴런의 입력임.
순전파(forward propagation) 단계에서는 입력 데이터 x가 각 뉴런을 통과하며 가중치가 적용되고 활성화 함수 f를 통해 출력이 생성됨
역전파 알고리즘은 강력하지만, 지역 최적화(local minima)에 빠질 위험이 존재하며, 네트워크가 항상 전역 최적화(global minima)에 도달하지 못할 수 있음.
계산 복잡성(computational complexity) 문제가 있으며, 특히 네트워크가 깊거나 노드 수가 많아질수록 학습 시간이 길어짐.
활성화 함수(activation function)의 선택에 따라 학습 성능과 수렴 속도가 크게 영향을 받음.
미래 연구 방향
더 나은 최적화 방법: 학습률을 동적으로 조정하거나, 모멘텀(momentum)을 활용하여 학습 효율성을 개선하는 방향.
가중치 초기화(weight initialization) 방법 개선: 가중치 초기화가 네트워크 학습의 초기 단계에서 중요한 영향을 미침.
대규모 데이터셋 적용: 더 큰 데이터셋과 복잡한 문제를 해결할 수 있는 확장 가능한 알고리즘 연구.
네트워크 구조 최적화: 자동으로 최적의 네트워크 구조를 설계하거나, 역전파와 결합한 새로운 학습 패러다임 개발.
Conclusion
본 연구는 역전파 알고리즘(Backpropagation)을 도입하여 다층 신경망(Multi-layer Neural Network)의 학습 가능성을 입증하였음.
비선형 문제 해결에서 단층 퍼셉트론의 한계를 극복하였으며, 다양한 데이터셋에서 우수한 성능을 보였음.
역전파는 신경망 학습의 패러다임 전환을 이루었으며, 이후의 딥러닝 및 인공지능 발전에 중추적인 역할을 함.
이 연구는 신경망이 특징 표현(feature representation)을 학습하는 데 있어 중요한 전환점을 제시하였으며, 패턴 인식(pattern recognition)과 같은 실질적인 문제에 응용 가능성을 열었음.
References
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533-536.
Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386-408.
Werbos, P. J. (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. Ph.D. Thesis, Harvard University.
Lecun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.