Transfomer | Notion

트랜스포머(Transformer)는 구글이 발표한 논문인 "Attention is all you need"에서 나온 모델로, 기존의 seq2seq의 구조인 인코더-디코더를 따르지만, 내부적으로 RNN 레이어 없이, 어텐션(Attention)으로만 구현한 모델이다.

Untitled

→ RNN에 기반한 seq2seq 모델은

→ 따라서 attention이라는 개념이 등장

attention : 어텐션의 기본 아이디어는 디코더에서 출력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 다시 한 번 참고한다는 점입니다. 단, 전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중(attention)해서 보게 됩니다.

→ attention은 본래 RNN에 기반한 seq2seq 모델의 문제점을 보완하기 위해 만들어졌지만, transformer는 attention으로만 인코더와 디코더를 설계한 것이다.

RNN과 달리 입력 데이터를 병렬적으로 학습함(속도가 빠름)
- 모든 토큰을 한 번에 입력받아서 학습
self-attention이 적용되어 학습 시 입력 시퀀스가 유의미하게 순차적으로 연결되어 있지 않아도, 필요한 부분에만 집중하여 컨텍스트 벡터를 생성할 수 있음(Q, K, V를 사용)

→ 입력 벡터(단어)에 대해서 세 개의 학습 가능한 행렬들($W^Q$, $W^K$, $W^V$)을 각각 곱하여 Q, K, V 벡터를 만들어 냄
- Query 벡터 : 자기 자신(단어) 단어
- Key 벡터 : 단어들이 Query(자신)와 얼마나 연관되었는지를 나타내는 가중치
  - (바로 앞 정보만 보는 rnn 기반에 비해, transformer는 한 query에 대해서, 모든 단어들에 대한 연관성을 알 수 있음)
- Value 벡터 : 각 토큰의 의미(예를 들어 영어라면 ‘he’, 한국어라면 ‘그’라는 단어 자체의 의미 임베딩)
- 즉, softmax(Query * Key) : 한 단어를 encoding 할 때, 다른 어떤 단어들과 interaction이 더 일어나야되는지를 표현
self-attention에서 n개의 벡터(xi)가 주어지고 n개의 z를 찾을 때, zi는 xi 이외의 모든 x 벡터도 같이 고려를 한다
- 즉 모든 벡터들은 dependencies를 가진다
단점 : 모델 구조체가 너무 커서, 어느정도 이상의 성능을 내기 위해서는 보다 막대한 양의 훈련 데이터와 시간이 필요