어텐션 (3) 썸네일형 리스트형 라마 모델, 코드와 그림으로 이해하기 파트 2 안녕하세요, 수달이입니다. 라마 모델 이해하기 두 번째 파트! 오늘은 디코더 (Decoder) 모듈에 대해 다루겠습니다. 디코더의 8할은 어텐션 (Attention) 모듈이라고 할 수 있는데요. 지난 포스팅을 열심히 읽으신 분이라면 이미 디코더의 반 이상은 이해하신 셈이죠. ت 그럼 가벼운 마음으로 시작해 볼까요?디코더 구성요소 살펴보기def __init__(self, config: LlamaConfig, layer_idx: int): super().__init__() self.hidden_size = config.hidden_size self.self_attn = LlamaAttention(config=config, layer_idx=layer_idx) self.mlp = Llam.. 라마 모델, 코드와 그림으로 이해하기 파트 1 안녕하세요, 수달이입니다. 오늘부터 메타 라마(Llama) 모델의 아키텍처를 깊-게 살펴보는 새로운 시리즈를 시작하겠습니다. 논문으로 공부하는 것도 좋은 방법이지만, 이번 시리즈에서는 이미지와 HuggingFace Transformer 코드를 활용하여 좀 더 쉽게 배워보고자 합니다. 그럼 공부 순서부터 함께 볼까요? LlamaAttentionLlamaDecoderLayerLlamaModelLlamaForCausalLM최근 언어 모델들은 대부분 트랜스포머를 기반으로 하는데요. 이 트랜스포머의 핵심인 어텐션 모듈부터 시작해서, 점차 범위를 넓혀 디코더, 베이스 모델, 언어 모델링 모델 순으로 살펴보겠습니다. 나무에서 시작하여 숲을 이해하는 눈을 키우는 것이죠. 그럼 어텐션 모듈부터 시작해 볼까요? 출-발.. [Attention] Sliding Window Attention 슬라이딩 윈도우 어텐션 머신러닝, 딥러닝, AI를 공부하는 사람이라면 모를 수 없는 페이퍼, Attention Is All You Need! 이 페이퍼의 핵심은 self-attention이라는 개념입니다. 한 단어씩 한국어로 풀어보자면, 나 (self) 에 대한 관심 (attention) 인데요. 즉, self-attention은 자기 자신 (언어 모델에선 입력 문장이겠죠?) 의 이곳저곳에 주의를 기울이는 것입니다. Self-Attention 너무나도 유명한 너문장의 왼쪽에서 오른쪽으로, 일종의 "방향성"을 가지고 있었던 이전 아키텍쳐들 (예. RNN, LSTM) 과는 다르게, self-attention은 방향성 없이 앞/뒤 모든 위치의 단어를 고려할 수 있다는 점에서 획기적인 아이디어였습니다. 예를 들어, "어제 화성에 갔.. 이전 1 다음