AI · LLM

2026 경량 Local LLM 비교: 어떤 모델을 로컬에 올릴 것인가

Llama 4 Scout, Gemma 4, Phi-4 mini, Qwen 3, Mistral Small 3.1 등 2026년 주요 오픈 모델의 VRAM, 벤치마크, 추론 속도, 한국어 성능을 실전 기준으로 비교한다.

이 글의 기술 정보는 2026년 4월 기준으로 검증되었습니다. AI·LLM 분야는 변화가 빠르므로, 6개월 이상 경과 시 공식 문서를 재확인하세요.

이런 분이 읽으면 좋습니다

요약: 2026년 4월 기준, 소비자용 GPU(8—24GB VRAM)에서 돌릴 수 있는 오픈 LLM이 급격히 늘었다. 하지만 모델마다 강점이 완전히 다르다. 이 글은 Llama 4, Gemma 4(4월 2일 출시), Phi-4 mini, Qwen 3, Mistral Small 3.1을 VRAM 요구량, 벤치마크 스코어, 추론 속도, 한국어 성능 네 축으로 비교하고, 용도별로 어떤 모델을 선택해야 하는지 정리한다.

이 글은 로컬 LLM을 직접 배포하려는 개발자와 ML 엔지니어를 위해 썼다. 클라우드 API가 아닌 자체 하드웨어에서 추론하는 시나리오를 전제한다.

비교 대상 모델 개요

파라미터아키텍처컨텍스트 윈도우라이선스
Llama 4 Scout 109B 총 / 17B 활성MoE (16 experts)10M 토큰Llama 4 Community
Gemma 4 31B 30.7BDense128K 토큰Apache 2.0
Gemma 4 26B 26B 총 / ~4B 활성MoE (128 experts, 8 active)128K 토큰Apache 2.0
Gemma 4 E4B ~4B 실효PLE (Per-Layer Embeddings)128K 토큰Apache 2.0
Gemma 4 E2B ~2B 실효PLE128K 토큰Apache 2.0
Phi-4 mini 3.8BDense128K 토큰MIT
Qwen 3 14B 14BDense128K 토큰Apache 2.0
Qwen 3 30B-A3B 30B 총 / 3B 활성MoE128K 토큰Apache 2.0
Mistral Small 3.1 24BDense128K 토큰Apache 2.0
2026년 4월 기준 주요 로컬 배포 가능 오픈 모델. Gemma 4는 4월 2일 출시.

VRAM 요구량과 양자화

로컬 배포의 첫 번째 관문은 VRAM이다. Q4_K_M 양자화는 가중치를 4비트로 압축하여 FP16 대비 약 75% 메모리를 절감하면서도 출력 품질을 실용 수준으로 유지한다. 2026년 현재 GGUF 포맷이 사실상 표준이며, llama.cpp와 Ollama가 모든 주요 모델을 지원한다.

FP16 VRAMQ4_K_M VRAMQ8 VRAM8GB GPU 가능 여부
Llama 4 Scout ~220GB~65GB~115GB불가
Gemma 4 31B ~62GB~20GB~33GB불가
Gemma 4 26B (MoE) ~52GB~17GB~28GB불가 (활성 ~4B)
Gemma 4 E4B ~8GB~3.5GB~5GB가능
Gemma 4 E2B ~4GB~1.5GB~2.5GB가능
Phi-4 mini ~7.6GB~2.1GB~4GB가능
Qwen 3 14B ~28GB~10.7GB~15GB불가
Qwen 3 30B-A3B ~60GB~20GB~32GB불가 (활성은 3B)
Mistral Small 3.1 ~48GB~14GB~25GB불가
Q4_K_M 기준 VRAM 요구량. 컨텍스트 길이에 따라 추가 메모리 필요.

VRAM 티어별 추천

8GB VRAM (RTX 4060, RTX 3070 등): Phi-4 mini(Q4_K_M, 2.1GB), Gemma 4 E4B(Q4_K_M, ~3.5GB), Gemma 4 E2B(Q4_K_M, ~1.5GB)가 적합하다. Gemma 4 E4B는 Gemma 3 4B의 후속으로, 멀티모달(텍스트+이미지+비디오+오디오)까지 지원한다.

16GB VRAM (RTX 4080, RTX 5060 Ti 등): Qwen 3 14B(Q4_K_M, 10.7GB)가 추론/수학에서 강하고, Mistral Small 3.1(Q4_K_M, 14GB)도 수용된다. Gemma 4 26B MoE(Q4_K_M, ~17GB)가 이 구간의 새로운 강자 — 활성 파라미터 ~4B로 빠른 추론을 하면서 LMArena 1441을 기록한다.

24GB VRAM (RTX 4090, RTX 5080 등): Gemma 4 31B(Q4_K_M, ~20GB)가 최선의 선택이다. MMLU-Pro 85.2%, LiveCodeBench 80%로 이전 세대(Gemma 3 27B)를 크게 앞선다. Qwen 3 30B-A3B도 여전히 경쟁력 있다.

벤치마크 성능 비교

MMLU-ProMATH (AIME)LiveCodeBenchGPQA Diamond
Gemma 4 31B (dense) 85.2%89.2% (AIME)80%--
Gemma 4 26B (MoE, ~4B active) --------
Llama 4 Scout (17B active) 74.375.8--57.2
Mistral Small 3.1 (24B) 79%--74% (HumanEval)--
Qwen 3 14B --79.2----
Phi-4 mini (3.8B) ----74% (HumanEval)--
각 모델의 공식 보고 벤치마크 기준. --는 공식 수치 미공개. Gemma 4 31B가 MMLU-Pro·AIME·코딩 모두에서 최고 성적.

추론 속도

로컬 배포에서 체감 성능을 좌우하는 것은 토큰/초(tok/s)다. RTX 4090 기준, Q4_K_M 양자화에서의 대략적인 수치는 다음과 같다.

  • Gemma 4 E2B: 150+ tok/s — 2B 실효 파라미터로 가장 빠르다
  • Phi-4 mini: 120+ tok/s — 3.8B 파라미터의 가벼움이 빛난다
  • Gemma 4 E4B: 90—120 tok/s — PLE 아키텍처로 Gemma 3 4B 대비 효율 향상
  • Qwen 3 30B-A3B: ~196 tok/s — MoE 구조 덕분에 활성 파라미터 3B만 연산
  • Gemma 4 26B (MoE): 80—100 tok/s — 활성 ~4B, 128개 전문가 중 8개만 활성화
  • Qwen 3 14B: 45—55 tok/s — 14B 급에서 준수한 속도
  • Mistral Small 3.1: 25—35 tok/s — 24B dense 모델
  • Gemma 4 31B: 18—25 tok/s — 31B dense, 가장 강력하지만 가장 느림

Qwen 3 30B-A3B는 특이한 위치에 있다. MoE 구조 덕분에 실제 연산량은 3B 급이면서 품질은 14B 급에 가깝다. 단, 전체 파라미터를 메모리에 올려야 하므로 VRAM은 넉넉해야 한다.

한국어 성능

로컬 LLM을 한국어 환경에서 사용한다면 모델 선택이 크게 달라진다.

Qwen 3 계열이 압도적이다. 250K 어휘(vocabulary)와 201개 언어 학습 데이터를 기반으로, CJK 언어권에서 다른 모델 대비 확연한 차이를 보인다. 한국어 지시 따르기, 요약, 번역 모두에서 같은 파라미터 규모의 경쟁 모델보다 우수하다.

Gemma 3은 구글의 다국어 학습 파이프라인 덕분에 한국어를 포함한 아시아 언어에서 준수한 성능을 보인다. 27B 모델 기준 LMSys Chatbot Arena Elo 1339를 기록하며 상위 10위 안에 들었다.

Llama 4 Scout는 다국어 벤치마크(TydiQA 등)에서 강한 성능을 보이지만, 로컬 배포가 현실적으로 어렵다는 점이 한계다.

Phi-4 mini와 Mistral Small 3.1은 영어 중심 설계로, 한국어 태스크에서는 위 모델들에 비해 확연히 뒤진다.

코딩 능력

코드 생성과 디버깅 용도로 로컬 모델을 사용한다면 고려할 점이 다르다.

  • Qwen 3 14B: LiveCodeBench와 코딩 벤치마크에서 동급 최강. 다양한 언어 지원.
  • Phi-4 mini: 3.8B라는 크기에 비해 놀라운 코딩 성능. HumanEval 74%는 훨씬 큰 모델과 비교해도 경쟁력 있다.
  • Mistral Small 3.1: HumanEval 74%로 Phi-4 mini와 동급이지만, 6배 이상 큰 모델이다.
  • Gemma 3 27B: LiveCodeBench 29.7로 코딩 특화 모델은 아니지만, 범용적으로 쓸 만하다.

용도별 추천 정리

추천 모델VRAM 요구핵심 이유
한국어 챗봇/요약 Qwen 3 14B~10.7GB (Q4)한국어 성능 최강, 250K 어휘
코딩 어시스턴트 (경량) Phi-4 mini~2.1GB (Q4)최소 자원으로 준수한 코딩 성능
범용 (8GB GPU) Gemma 4 E4B~3.5GB (Q4)멀티모달+오디오, Gemma 3 4B 후속
범용 (16GB GPU) Gemma 4 26B MoE~17GB (Q4)LMArena 1441, ~4B 활성으로 빠른 추론
범용 (24GB GPU) Gemma 4 31B~20GB (Q4)MMLU-Pro 85.2%, LiveCodeBench 80% — 오픈 모델 최강
빠른 응답 우선 Qwen 3 30B-A3B~20GB (Q4)MoE로 196 tok/s 달성
온디바이스/모바일 Gemma 4 E2B~1.5GB (Q4)2B 실효, 오디오 입력 지원
긴 문서 처리 Llama 4 Scout~65GB+ (Q4)10M 토큰 컨텍스트 (서버급 필요)
2026년 4월 기준 용도별 로컬 LLM 추천. Gemma 4가 대부분의 범용 시나리오에서 최선.

실전 배포 체크리스트

  1. 양자화 포맷: GGUF + Q4_K_M이 품질 대비 메모리 효율의 표준이다. Q8은 품질이 약간 올라가지만 VRAM을 2배 가까이 쓴다. 용도가 코드 생성이라면 Q8을 고려할 가치가 있다.

  2. 추론 엔진: llama.cpp 기반의 Ollama가 진입 장벽이 가장 낮다. 프로덕션 수준이 필요하면 vLLM이나 TGI를 검토한다.

  3. 컨텍스트 길이와 VRAM: 모델 가중치 외에 KV 캐시가 추가 VRAM을 소모한다. 긴 컨텍스트를 쓸수록 필요 VRAM이 증가하므로, 모델 크기만으로 판단하면 안 된다.

  4. 멀티모달 필요 여부: Gemma 4 전 모델이 텍스트+이미지+비디오를 지원하고, E2B/E4B는 오디오 입력도 가능하다. Llama 4 Scout도 네이티브 멀티모달을 지원한다. 멀티모달이 필요하면 Gemma 4가 가장 넓은 선택지를 제공한다.

다음에 읽을 글