AI · LLM

LLM은 도대체 어떤 구조로 되어 있는가 — 기존 AI와의 차이와 진화 방향

Transformer·Self-Attention·학습 파이프라인부터 기존 머신러닝·딥러닝과의 본질적 차이, 그리고 멀티모달·에이전트·추론 모델로 이어지는 LLM 진화 방향까지 심층 분석한다.

이런 분이 읽으면 좋습니다

요약: LLM은 “거대한 검색엔진”도, “단순한 자동완성”도, “사람처럼 생각하는 기계”도 아니다. 이 글은 Transformer 아키텍처·Self-Attention·학습 파이프라인이라는 내부 구조부터, 고전 ML/초기 딥러닝과의 본질적 차이, 그리고 멀티모달·에이전트·추론 모델로 이어지는 진화 방향까지 LLM을 구조로 이해하고 싶은 독자를 위해 정리한 심층 분석이다.

이 글은 LLM을 단순 사용자가 아니라 설계·활용·비평의 관점에서 깊이 이해하고 싶은 개발자·연구자·의사결정자를 위해 썼다. 수식 유도보다는 개념의 구조와 세대 간 차이를 잡아내는 데 초점을 맞춘다.


1. 서론: 왜 “구조”부터 물어야 하는가

ChatGPT 이후 “대규모 언어 모델(Large Language Model, 이하 LLM)“이라는 용어는 대중에게 친숙해졌지만, 정작 이 모델이 어떤 원리로 작동하는지에 대한 오해는 오히려 더 커진 면이 있다. “거대한 검색엔진이다”, “통계적으로 다음 단어를 뽑는 자동완성일 뿐이다”, “사람처럼 생각한다”는 상반된 주장들이 공존한다.

이 글은 그 중간 지점을 정확히 겨냥한다. LLM이 무엇인지 이해하려면 그 내부 구조(Architecture), 그리고 학습 메커니즘을 살펴봐야 한다. 나아가 이전 세대 AI(고전 머신러닝, 초기 딥러닝)와의 본질적 차이, 그리고 앞으로의 진화 방향까지 짚어보고자 한다.


2. LLM의 구조 심층 해부

2.1 모든 것의 기반: Transformer 아키텍처

현대 LLM의 99%는 2017년 구글이 발표한 논문 *“Attention Is All You Need”*에서 제안된 Transformer 구조 위에 서 있다. GPT, Claude, Gemini, LLaMA 계열 모두 이 골격을 공유한다.

Transformer의 핵심 아이디어는 간단하다:

“문장을 순차적으로(sequentially) 처리하지 말고, 모든 단어가 모든 단어를 한 번에 쳐다보게 하자.”

이전의 RNN, LSTM은 단어를 한 개씩 순서대로 읽어나갔다. 이 방식은 느리고(병렬화 불가), 문장이 길어지면 앞부분을 잊어버리는 long-term dependency 문제가 있었다. Transformer는 이를 Self-Attention이라는 메커니즘으로 해결한다.

2.2 Self-Attention: LLM의 심장

Self-Attention은 각 토큰(token, 대략 단어 조각)이 문장 안의 다른 모든 토큰과 얼마나 관련 있는지를 계산한다.

구체적으로 각 토큰은 세 가지 벡터로 변환된다:

  • Query (Q): “나는 누구를 찾고 있는가”
  • Key (K): “나는 어떤 정체성을 가지는가”
  • Value (V): “나는 어떤 정보를 전달하는가”

이 셋 사이의 내적(dot product)과 softmax 연산을 통해, 각 토큰은 문맥 내 모든 토큰으로부터 “중요도 가중 평균”된 정보를 받아들인다. 예를 들어 “그는 은행에 갔다. 거기서 돈을 찾았다”라는 문장에서 “은행”이 ‘금융기관’을 의미하는지 ‘강둑’을 의미하는지는, 뒤에 나오는 “돈”이라는 토큰과의 attention 가중치가 결정해준다.

이 연산을 여러 개 병렬로 수행하는 것이 Multi-Head Attention이다. 각 head가 서로 다른 관점(문법적 관계, 의미적 관계, 참조 관계 등)을 학습한다.

2.3 토큰화(Tokenization)와 임베딩(Embedding)

LLM은 글자나 단어를 직접 다루지 않는다. 문장은 먼저 **토크나이저(tokenizer)**를 통해 수천~수십만 개의 고정된 어휘 중 하나의 ID로 쪼개진다. 대표적으로 BPE(Byte Pair Encoding), SentencePiece 방식이 쓰인다. “understanding”은 “under”, “stand”, “ing” 같은 subword로 나뉠 수 있다.

각 토큰 ID는 **임베딩 벡터(embedding vector)**로 매핑된다. 보통 수천 차원(예: 4096, 12288)의 실수 벡터다. 이 벡터 공간 안에서 의미적으로 유사한 토큰은 서로 가깝게 배치되도록 학습된다. 즉, LLM이 다루는 “언어”는 실제로는 고차원 기하학적 공간 위의 점들의 궤적이다.

2.4 위치 인코딩(Positional Encoding)

Self-Attention은 순서를 고려하지 않는 연산이다. “개가 사람을 물었다”와 “사람이 개를 물었다”를 구분하려면 위치 정보를 따로 주입해야 한다. 초기 Transformer는 sinusoidal 함수를 사용했고, 현대 LLM은 주로 **RoPE(Rotary Positional Embedding)**이나 ALiBi 같은 상대적 위치 인코딩을 사용한다. 이는 긴 문맥(long context)으로의 확장성에 결정적이다.

2.5 블록의 반복: 깊이가 만드는 추상화

하나의 Transformer 블록은 대략 다음과 같이 구성된다:

  1. Multi-Head Self-Attention
  2. Residual Connection + Layer Normalization
  3. Feed-Forward Network (FFN) — 보통 2개 층의 MLP, 차원이 임베딩의 4배로 확장됐다가 다시 축소
  4. Residual Connection + Layer Normalization

이 블록이 수십~수백 층 쌓여 있다. GPT-3는 96층, 최신 모델들은 더 깊다. 층이 깊어질수록 더 추상적인 표현이 학습된다는 것이 경험적으로 확인됐다: 하위 층은 문법적 패턴을, 중간 층은 의미적 관계를, 상위 층은 세계 지식과 추론 패턴을 다룬다.

2.6 학습 3단계: Pre-training → Fine-tuning → RLHF

LLM의 “지능”은 단일 학습 과정이 아니라 여러 단계의 스택으로 만들어진다.

(1) Pre-training (사전 학습) 인터넷에서 긁어모은 수조 개의 토큰(웹, 책, 논문, 코드)으로 **“다음 토큰 예측(next-token prediction)“**이라는 단순한 과제를 학습한다. 이 과정에서 모델은 문법, 사실 지식, 추론 패턴, 코드 문법, 다국어 능력을 동시에 내재화한다. 이 단계가 GPU 수천 대와 수개월이 소요되는 가장 비용이 큰 단계다.

(2) Supervised Fine-Tuning (SFT) 사람이 작성한 “좋은 질문-좋은 답변” 쌍 수만~수십만 개로 지시 따르기(instruction following) 능력을 학습시킨다.

(3) RLHF (Reinforcement Learning from Human Feedback) / RLAIF 사람(또는 AI)이 선호하는 응답을 강화하는 방식으로 모델을 정렬(alignment)시킨다. 이 단계가 “도움이 되고, 해롭지 않고, 정직한” 성격을 형성한다. 최근에는 DPO, Constitutional AI 등 더 효율적인 변형이 사용된다.

(4) Post-training — Reasoning 단계 (최근 추가) OpenAI의 o1 계열이나 DeepSeek-R1 이후로, “풀이 과정(chain-of-thought)을 길게 생성하고 이를 강화학습으로 다듬는” 단계가 표준이 되어가고 있다. 이는 LLM을 즉답 기계에서 사고하는 기계로 확장시키는 변화이며, 에이전트 런타임 전체를 제어하는 하네스 엔지니어링의 전제이기도 하다.


3. 이전 세대 AI와 무엇이 본질적으로 다른가

LLM을 “그냥 큰 딥러닝 모델”로 보는 것은 반은 맞고 반은 틀리다. 차이를 계층별로 정리하면 다음과 같다.

3.1 고전 머신러닝(Classical ML)과의 차이

선형 회귀, SVM, 결정 트리, 랜덤 포레스트 등은 다음 특징을 공유한다:

  • 피처 엔지니어링(feature engineering)이 필수: 도메인 전문가가 “어떤 특징을 볼 것인가”를 수동 설계.
  • 태스크별 모델: 스팸 분류기는 스팸만, 가격 예측은 가격만.
  • 데이터 규모에 따른 성능 포화: 일정 수준 이상 데이터를 줘도 성능이 거의 오르지 않는다.

LLM은 이 세 가지를 모두 뒤집는다. 피처를 스스로 발견하고, 하나의 모델이 번역·요약·코딩·추론·대화를 모두 수행하며, 데이터와 파라미터를 늘릴수록 성능이 계속 오르는 Scaling Law를 따른다.

3.2 초기 딥러닝(CNN, RNN, LSTM)과의 차이

2012년 AlexNet 이후의 딥러닝은 피처 엔지니어링을 없앴다는 점에서 혁신이었다. 하지만 여전히 태스크 전용 모델이었다. 이미지 분류 CNN은 기계 번역을 할 수 없었고, 번역용 seq2seq 모델은 이미지를 이해할 수 없었다.

LLM이 바꾼 것은 세 가지다:

(1) 범용성(Generality) 하나의 사전학습된 모델이 prompt만 바꾸면 수백 가지 태스크를 수행한다. 이를 가능하게 한 것이 in-context learning — 파라미터를 업데이트하지 않고 프롬프트 안의 예시만으로 새로운 태스크를 학습하는 현상이다.

(2) 창발 능력(Emergent Abilities) 모델이 일정 규모(대략 10B~100B 파라미터)를 넘어서면, 작은 모델에서는 전혀 보이지 않던 능력(다단계 산술, 논리 추론, 코드 디버깅)이 “갑자기” 나타난다. 이 현상 자체가 아직 이론적으로 완전히 설명되지 않았다.

(3) 세계 모델(World Model)의 암묵적 학습 다음 토큰을 예측하려면, 실제로는 “이 문장이 묘사하는 세계가 어떻게 돌아가는지”를 어느 정도 모델링해야 한다. 최근 연구들(Othello-GPT, Anthropic의 interpretability 연구)은 LLM 내부에 공간 개념, 시간 개념, 심지어 타인의 마음에 대한 추정(Theory of Mind) 비슷한 구조가 창발적으로 형성됨을 보여주고 있다.

3.3 요약: 패러다임 전환

구분고전 ML초기 딥러닝LLM
피처수동 설계자동 추출자동 + 범용
범위단일 태스크단일 도메인범용
학습 방식태스크별 지도학습태스크별 지도학습사전학습 + 파인튜닝 + RLHF
데이터 규모MB~GBGB~TBTB~PB
성능 곡선조기 포화중간 포화Scaling Law (지속 상승)
사용 방식재학습전이학습프롬프팅

4. 앞으로의 진화 방향에 대한 견해

지금의 LLM은 결코 완성형이 아니다. 오히려 기술 곡선상 아직 초기 단계에 가깝다. 앞으로 5~10년 내 예상되는 진화 방향을 짚어본다. 각 방향은 LLM 시대의 하드웨어 혁신과 서로 물려 있다 — 모델 성능 곡선이 어디서 꺾이느냐는 실리콘·메모리·전력의 제약이 결정하기 때문이다.

4.1 멀티모달의 완전 통합

현재 GPT-4o, Gemini, Claude 등이 이미지·오디오·비디오를 다루고는 있지만, 여전히 텍스트 중심에 다른 모달이 부착된 구조다. 앞으로는 텍스트·이미지·음성·비디오·3D·센서 데이터가 같은 토큰 공간에서 처리되는 네이티브 멀티모달이 표준이 될 것이다. 이는 단순히 편의성의 문제가 아니라, 언어만으로는 도달할 수 없는 물리적 직관과 공간 추론을 LLM이 갖추게 되는 문제다.

4.2 에이전트화(Agentic AI)

지금까지의 LLM은 “질문-답변” 단발 상호작용이 기본이었다. 앞으로는 도구를 능동적으로 사용하고, 계획을 세우고, 장시간 작업을 수행하는 에이전트로 확장된다. Claude Code, Cowork 같은 제품들이 이미 그 방향을 보여주고 있다. 에이전트가 팀과 개발 프로세스를 어떻게 재편하는지는 개발 프로세스와 AI Agent 시대의 협업 효율에서 따로 다뤘다.

4.3 추론(Reasoning) 모델의 주류화

OpenAI o1, o3, DeepSeek-R1, Claude의 extended thinking 등이 증명했듯, **“더 오래 생각하면 더 잘 푼다”**는 속성이 LLM에도 성립한다. 이른바 test-time compute scaling이다. 앞으로는 사전학습 규모 못지않게 추론 시 연산량이 성능의 주요 변수가 될 것이다. 수학, 과학, 코딩 같은 엄밀한 영역에서 이 흐름이 특히 가속될 전망이다.

4.4 효율화: MoE, 양자화, 증류

GPT-4 수준의 성능을 가정용 GPU에서 돌리는 것은 더 이상 공상이 아니다. Mixture of Experts(MoE) 구조(전체 파라미터 중 일부만 활성화), 양자화(quantization, 4비트/2비트까지), 증류(distillation) 기법이 결합되면서, 모델 크기-성능 곡선은 해마다 크게 개선되고 있다. Claude Haiku, Gemini Flash, Llama 3.2 같은 소형 모델이 2년 전 최상위 모델 수준을 따라잡은 것이 그 증거다.

4.5 장기 기억과 지속 학습(Continual Learning)

현재 LLM의 근본적 한계는 학습 이후 새로운 것을 배우지 못한다는 점이다. 모든 “기억”은 context window 안에 임시로 존재할 뿐이다. 앞으로는 RAG를 넘어선, 사용자별·세션별 장기 메모리학습 파라미터를 안전하게 업데이트하는 지속 학습 기술이 핵심 연구 영역이 될 것이다.

4.6 해석 가능성(Interpretability)과 정렬(Alignment)

모델이 강력해질수록 “왜 그렇게 답했는가”를 아는 것이 중요해진다. Anthropic의 mechanistic interpretability 연구, sparse autoencoder를 통한 feature 분해 연구가 보여주듯, LLM의 내부를 들여다보는 기술이 빠르게 발전하고 있다. 장기적으로 이는 AI 안전성의 토대이자, 모델이 신뢰 가능한 파트너가 되기 위한 전제 조건이다.

4.7 물리적 세계로의 확장: Embodied AI

LLM이 로봇의 두뇌 역할을 하는 Embodied AI(Google RT-2, Figure 01, Physical Intelligence 등)는 “언어로 세계를 이해하던 모델”을 “세계 안에서 행동하는 모델”로 확장시킨다. 이는 AI 발전사에서 가장 큰 변곡점 중 하나가 될 가능성이 높다. 언어에서 획득한 추상적 추론 능력이 물리적 조작과 결합하는 순간, 지금까지 우리가 상상해온 “로봇”의 개념이 재정의될 것이다.


5. 결론: 도구를 넘어서는 지점

LLM은 “거대한 자동완성”이라는 냉소적 규정과 “인공일반지능(AGI)의 전조”라는 낙관적 규정 사이 어딘가에 있다. 기술적으로 보면, 이것은 Transformer라는 단순한 연산 구조 위에 천문학적 규모의 데이터와 학습 기법이 쌓여 만들어진 창발적 시스템이다.

이전 세대 AI가 “특정 문제를 푸는 도구”였다면, LLM은 **“언어를 매개로 거의 모든 지적 작업에 개입하는 일반 목적 엔진”**에 가깝다. 이 차이는 양적(더 크다)이 아니라 질적(다른 종류다)이다.

앞으로의 진화는 더 큰 모델보다 더 똑똑한 학습, 더 깊은 추론, 더 안전한 정렬, 더 물리적인 확장의 방향으로 움직일 것이다. 우리가 주목해야 할 것은 벤치마크 점수보다도, 이 시스템이 인간의 인지 활동 어느 부분까지, 어떤 방식으로 들어오게 될 것인가 하는 구조적 질문이다.

LLM의 구조를 이해한다는 것은 결국, 앞으로 10년간 우리가 함께 살아갈 새로운 지적 파트너의 형태를 이해한다는 뜻이다.


이 글은 Transformer 아키텍처, 현대 LLM의 학습 파이프라인, 그리고 2025~2026년까지의 주요 연구 동향을 바탕으로 작성되었습니다.