LSTM과 GRU | Notion

LSTM : RNN의 Short-term dependency 문제를 극복하고자 gate의 개념을 부여하여 특정 게이트는 최근 정보를 학습(Short term memory)하고, 다른 게이트는 과거 데이터를 위주로 학습(Lont term memory)하게한 알고리즘
- 출력, 입력, 삭제 게이트가 존재
- RNN은 역전파 계산 시 곱셉만을 사용했다면, LSTM은 곱셈과 덧셈의 연산을 적절히 사용하여 멀리 있는 레이어까지 기울기가 전달될 수 있도록 함
- 그러나 복잡한 구조 때문에 파라미터의 수가 RNN보다 많아서 계산 복잡도가 크다는 것이 단점
GRU : LSTM에서 가장 핵심적인 Gate만 가져와서 parameter 수를 줄인 형태
- 업데이트 게이트와 리셋 게이트가 존재

→ LSTM과 GRU는 비슷한 성능을 보인다고 알려져있으나, GRU가 학습 속도가 더 빠름

(경험적으로 데이터 양이 적으면 parameter의 양이 적은 GRU가 좀 더 낫다는 평가도 있음)