LSTM : RNN의 Short-term dependency 문제를 극복하고자 gate의 개념을 부여하여 특정 게이트는 최근 정보를 학습(Short term memory)하고, 다른 게이트는 과거 데이터를 위주로 학습(Lont term memory)하게한 알고리즘
GRU : LSTM에서 가장 핵심적인 Gate만 가져와서 parameter 수를 줄인 형태
→ LSTM과 GRU는 비슷한 성능을 보인다고 알려져있으나, GRU가 학습 속도가 더 빠름
(경험적으로 데이터 양이 적으면 parameter의 양이 적은 GRU가 좀 더 낫다는 평가도 있음)