본문 바로가기

LLM

(2)
[Position Embedding] RoPE 로타리 포지션 임베딩 오늘의 토픽으로 들어가기 전에 지난 글을 빠르게 복습해 보겠습니다. LLM 세계의 대부 같은 모델, Transformer의 핵심은 self-attention이었죠. self-attention은 타겟 단어 앞/뒤의 모든 단어를 동시에 고려할 수 있어서, 왼쪽에서 오른쪽으로 프로세싱을 하는 이전의 모델들보다 좋은 성능을 보인다고 배웠습니다. 단, 지난 글에서 언급하지 않은 중요한 디테일이 하나 있는데요. 바로, self-attention은 position-agnostic, 즉 이웃 단어들의 정확한 위치를 알지 못한다는 점입니다 [2]. 즉, 이웃 단어들의 존재유무만 알 뿐 그 단어가 내 앞에 있는지, 그렇다면 얼마나 떨어져 있는지에 대한 개념이 없습니다.  Position Embedding하지만, 문장에서는..
[Attention] Sliding Window Attention 슬라이딩 윈도우 어텐션 머신러닝, 딥러닝, AI를 공부하는 사람이라면 모를 수 없는 페이퍼, Attention Is All You Need! 이 페이퍼의 핵심은 self-attention이라는 개념입니다. 한 단어씩 한국어로 풀어보자면, 나 (self) 에 대한 관심 (attention) 인데요. 즉, self-attention은 자기 자신 (언어 모델에선 입력 문장이겠죠?) 의 이곳저곳에 주의를 기울이는 것입니다.  Self-Attention 너무나도 유명한 너문장의 왼쪽에서 오른쪽으로, 일종의 "방향성"을 가지고 있었던 이전 아키텍쳐들 (예. RNN, LSTM) 과는 다르게, self-attention은 방향성 없이 앞/뒤 모든 위치의 단어를 고려할 수 있다는 점에서 획기적인 아이디어였습니다. 예를 들어, "어제 화성에 갔..