이 글의 기술 정보는 2026년 4월 기준으로 검증되었습니다. AI·LLM 분야는 변화가 빠르므로, 6개월 이상 경과 시 공식 문서를 재확인하세요.
이런 분이 읽으면 좋습니다
요약: 2026년 4월 기준, 소비자용 GPU(8—24GB VRAM)에서 돌릴 수 있는 오픈 LLM이 급격히 늘었다. 하지만 모델마다 강점이 완전히 다르다. 이 글은 Llama 4, Gemma 4(4월 2일 출시), Phi-4 mini, Qwen 3, Mistral Small 3.1을 VRAM 요구량, 벤치마크 스코어, 추론 속도, 한국어 성능 네 축으로 비교하고, 용도별로 어떤 모델을 선택해야 하는지 정리한다.
이 글은 로컬 LLM을 직접 배포하려는 개발자와 ML 엔지니어를 위해 썼다. 클라우드 API가 아닌 자체 하드웨어에서 추론하는 시나리오를 전제한다.
비교 대상 모델 개요
| 파라미터 | 아키텍처 | 컨텍스트 윈도우 | 라이선스 | |
|---|---|---|---|---|
| Llama 4 Scout | 109B 총 / 17B 활성 | MoE (16 experts) | 10M 토큰 | Llama 4 Community |
| Gemma 4 31B | 30.7B | Dense | 128K 토큰 | Apache 2.0 |
| Gemma 4 26B | 26B 총 / ~4B 활성 | MoE (128 experts, 8 active) | 128K 토큰 | Apache 2.0 |
| Gemma 4 E4B | ~4B 실효 | PLE (Per-Layer Embeddings) | 128K 토큰 | Apache 2.0 |
| Gemma 4 E2B | ~2B 실효 | PLE | 128K 토큰 | Apache 2.0 |
| Phi-4 mini | 3.8B | Dense | 128K 토큰 | MIT |
| Qwen 3 14B | 14B | Dense | 128K 토큰 | Apache 2.0 |
| Qwen 3 30B-A3B | 30B 총 / 3B 활성 | MoE | 128K 토큰 | Apache 2.0 |
| Mistral Small 3.1 | 24B | Dense | 128K 토큰 | Apache 2.0 |
VRAM 요구량과 양자화
로컬 배포의 첫 번째 관문은 VRAM이다. Q4_K_M 양자화는 가중치를 4비트로 압축하여 FP16 대비 약 75% 메모리를 절감하면서도 출력 품질을 실용 수준으로 유지한다. 2026년 현재 GGUF 포맷이 사실상 표준이며, llama.cpp와 Ollama가 모든 주요 모델을 지원한다.
| FP16 VRAM | Q4_K_M VRAM | Q8 VRAM | 8GB GPU 가능 여부 | |
|---|---|---|---|---|
| Llama 4 Scout | ~220GB | ~65GB | ~115GB | 불가 |
| Gemma 4 31B | ~62GB | ~20GB | ~33GB | 불가 |
| Gemma 4 26B (MoE) | ~52GB | ~17GB | ~28GB | 불가 (활성 ~4B) |
| Gemma 4 E4B | ~8GB | ~3.5GB | ~5GB | 가능 |
| Gemma 4 E2B | ~4GB | ~1.5GB | ~2.5GB | 가능 |
| Phi-4 mini | ~7.6GB | ~2.1GB | ~4GB | 가능 |
| Qwen 3 14B | ~28GB | ~10.7GB | ~15GB | 불가 |
| Qwen 3 30B-A3B | ~60GB | ~20GB | ~32GB | 불가 (활성은 3B) |
| Mistral Small 3.1 | ~48GB | ~14GB | ~25GB | 불가 |
VRAM 티어별 추천
8GB VRAM (RTX 4060, RTX 3070 등): Phi-4 mini(Q4_K_M, 2.1GB), Gemma 4 E4B(Q4_K_M, ~3.5GB), Gemma 4 E2B(Q4_K_M, ~1.5GB)가 적합하다. Gemma 4 E4B는 Gemma 3 4B의 후속으로, 멀티모달(텍스트+이미지+비디오+오디오)까지 지원한다.
16GB VRAM (RTX 4080, RTX 5060 Ti 등): Qwen 3 14B(Q4_K_M, 10.7GB)가 추론/수학에서 강하고, Mistral Small 3.1(Q4_K_M, 14GB)도 수용된다. Gemma 4 26B MoE(Q4_K_M, ~17GB)가 이 구간의 새로운 강자 — 활성 파라미터 ~4B로 빠른 추론을 하면서 LMArena 1441을 기록한다.
24GB VRAM (RTX 4090, RTX 5080 등): Gemma 4 31B(Q4_K_M, ~20GB)가 최선의 선택이다. MMLU-Pro 85.2%, LiveCodeBench 80%로 이전 세대(Gemma 3 27B)를 크게 앞선다. Qwen 3 30B-A3B도 여전히 경쟁력 있다.
벤치마크 성능 비교
| MMLU-Pro | MATH (AIME) | LiveCodeBench | GPQA Diamond | |
|---|---|---|---|---|
| Gemma 4 31B (dense) | 85.2% | 89.2% (AIME) | 80% | -- |
| Gemma 4 26B (MoE, ~4B active) | -- | -- | -- | -- |
| Llama 4 Scout (17B active) | 74.3 | 75.8 | -- | 57.2 |
| Mistral Small 3.1 (24B) | 79% | -- | 74% (HumanEval) | -- |
| Qwen 3 14B | -- | 79.2 | -- | -- |
| Phi-4 mini (3.8B) | -- | -- | 74% (HumanEval) | -- |
추론 속도
로컬 배포에서 체감 성능을 좌우하는 것은 토큰/초(tok/s)다. RTX 4090 기준, Q4_K_M 양자화에서의 대략적인 수치는 다음과 같다.
- Gemma 4 E2B: 150+ tok/s — 2B 실효 파라미터로 가장 빠르다
- Phi-4 mini: 120+ tok/s — 3.8B 파라미터의 가벼움이 빛난다
- Gemma 4 E4B: 90—120 tok/s — PLE 아키텍처로 Gemma 3 4B 대비 효율 향상
- Qwen 3 30B-A3B: ~196 tok/s — MoE 구조 덕분에 활성 파라미터 3B만 연산
- Gemma 4 26B (MoE): 80—100 tok/s — 활성 ~4B, 128개 전문가 중 8개만 활성화
- Qwen 3 14B: 45—55 tok/s — 14B 급에서 준수한 속도
- Mistral Small 3.1: 25—35 tok/s — 24B dense 모델
- Gemma 4 31B: 18—25 tok/s — 31B dense, 가장 강력하지만 가장 느림
Qwen 3 30B-A3B는 특이한 위치에 있다. MoE 구조 덕분에 실제 연산량은 3B 급이면서 품질은 14B 급에 가깝다. 단, 전체 파라미터를 메모리에 올려야 하므로 VRAM은 넉넉해야 한다.
한국어 성능
로컬 LLM을 한국어 환경에서 사용한다면 모델 선택이 크게 달라진다.
Qwen 3 계열이 압도적이다. 250K 어휘(vocabulary)와 201개 언어 학습 데이터를 기반으로, CJK 언어권에서 다른 모델 대비 확연한 차이를 보인다. 한국어 지시 따르기, 요약, 번역 모두에서 같은 파라미터 규모의 경쟁 모델보다 우수하다.
Gemma 3은 구글의 다국어 학습 파이프라인 덕분에 한국어를 포함한 아시아 언어에서 준수한 성능을 보인다. 27B 모델 기준 LMSys Chatbot Arena Elo 1339를 기록하며 상위 10위 안에 들었다.
Llama 4 Scout는 다국어 벤치마크(TydiQA 등)에서 강한 성능을 보이지만, 로컬 배포가 현실적으로 어렵다는 점이 한계다.
Phi-4 mini와 Mistral Small 3.1은 영어 중심 설계로, 한국어 태스크에서는 위 모델들에 비해 확연히 뒤진다.
코딩 능력
코드 생성과 디버깅 용도로 로컬 모델을 사용한다면 고려할 점이 다르다.
- Qwen 3 14B: LiveCodeBench와 코딩 벤치마크에서 동급 최강. 다양한 언어 지원.
- Phi-4 mini: 3.8B라는 크기에 비해 놀라운 코딩 성능. HumanEval 74%는 훨씬 큰 모델과 비교해도 경쟁력 있다.
- Mistral Small 3.1: HumanEval 74%로 Phi-4 mini와 동급이지만, 6배 이상 큰 모델이다.
- Gemma 3 27B: LiveCodeBench 29.7로 코딩 특화 모델은 아니지만, 범용적으로 쓸 만하다.
용도별 추천 정리
| 추천 모델 | VRAM 요구 | 핵심 이유 | |
|---|---|---|---|
| 한국어 챗봇/요약 | Qwen 3 14B | ~10.7GB (Q4) | 한국어 성능 최강, 250K 어휘 |
| 코딩 어시스턴트 (경량) | Phi-4 mini | ~2.1GB (Q4) | 최소 자원으로 준수한 코딩 성능 |
| 범용 (8GB GPU) | Gemma 4 E4B | ~3.5GB (Q4) | 멀티모달+오디오, Gemma 3 4B 후속 |
| 범용 (16GB GPU) | Gemma 4 26B MoE | ~17GB (Q4) | LMArena 1441, ~4B 활성으로 빠른 추론 |
| 범용 (24GB GPU) | Gemma 4 31B | ~20GB (Q4) | MMLU-Pro 85.2%, LiveCodeBench 80% — 오픈 모델 최강 |
| 빠른 응답 우선 | Qwen 3 30B-A3B | ~20GB (Q4) | MoE로 196 tok/s 달성 |
| 온디바이스/모바일 | Gemma 4 E2B | ~1.5GB (Q4) | 2B 실효, 오디오 입력 지원 |
| 긴 문서 처리 | Llama 4 Scout | ~65GB+ (Q4) | 10M 토큰 컨텍스트 (서버급 필요) |
실전 배포 체크리스트
-
양자화 포맷: GGUF + Q4_K_M이 품질 대비 메모리 효율의 표준이다. Q8은 품질이 약간 올라가지만 VRAM을 2배 가까이 쓴다. 용도가 코드 생성이라면 Q8을 고려할 가치가 있다.
-
추론 엔진: llama.cpp 기반의 Ollama가 진입 장벽이 가장 낮다. 프로덕션 수준이 필요하면 vLLM이나 TGI를 검토한다.
-
컨텍스트 길이와 VRAM: 모델 가중치 외에 KV 캐시가 추가 VRAM을 소모한다. 긴 컨텍스트를 쓸수록 필요 VRAM이 증가하므로, 모델 크기만으로 판단하면 안 된다.
-
멀티모달 필요 여부: Gemma 4 전 모델이 텍스트+이미지+비디오를 지원하고, E2B/E4B는 오디오 입력도 가능하다. Llama 4 Scout도 네이티브 멀티모달을 지원한다. 멀티모달이 필요하면 Gemma 4가 가장 넓은 선택지를 제공한다.
다음에 읽을 글
- RAG 파이프라인 설계: 청킹부터 검색 품질 모니터링까지 — 로컬 LLM 위에 RAG를 구축할 때 필요한 5개 레이어 설계
- LLM 구조화 출력: JSON 모드 vs 함수 호출 vs 제약 디코딩 — 로컬 모델에서도 신뢰할 수 있는 JSON을 받는 방법