Ollama 모델 가이드
Ollama에서 많이 쓰이는 오픈 웨이트 모델과 최신 cloud 태그 모델의 특징, 하드웨어 요구 사항, 선택 기준을 함께 정리합니다.
ollama list명령으로 설치된 모델 확인ollama pull qwen3:8b로 원하는 모델 다운로드ollama run qwen3:8b로 모델 실행ollama show qwen3:8b로 모델 정보 확인- 용도에 맞는 모델을 선택해 프로젝트에 통합
gpt-oss:20b, glm4, glm-4.7-flash처럼 로컬로 내려받는 태그와 glm-5:cloud처럼 Ollama Cloud/Launch를 요구하는 태그가 공존합니다. 실행 예제를 복사하기 전에 태그 뒤의 :cloud 여부를 먼저 확인하세요.
Ollama 모델 개요
Ollama는 다양한 오픈소스 LLM 모델을 로컬에서 실행할 수 있도록 지원하며, 일부 최신 모델은 cloud 태그로 연동할 수 있습니다. 각 모델은 특정 용도와 하드웨어 환경에 최적화되어 있으므로, 크기와 성능뿐 아니라 로컬 실행 여부, 컨텍스트 길이, 도구 사용 능력까지 함께 고려해야 합니다.
주요 모델 패밀리
Ollama가 지원하는 주요 모델 패밀리는 다음과 같습니다:
| 패밀리 | 개발사 | 특징 | 주요 용도 |
|---|---|---|---|
| Llama | Meta | MoE (Llama 4), 멀티모달 | 일반 대화, 질의응답, 요약 |
| CodeLlama | Meta | 코딩 특화, Python 강점 | 코드 생성, 디버깅, 리팩토링 |
| Mistral | Mistral AI | 효율적, 고품질 | 빠른 추론, 프로덕션 배포 |
| Mixtral | Mistral AI | MoE 아키텍처, 큰 모델 성능 | 복잡한 작업, 멀티태스킹 |
| Phi | Microsoft | 소형 고성능, 추론 특화 | 리소스 제한 환경, 엣지 |
| Gemma | 멀티모달, 다국어 140개+ | 실시간 응답, 모바일 | |
| Qwen | Alibaba | 다국어, thinking 모드 | 다국어 처리, 번역 |
| DeepSeek | DeepSeek | 추론(R1) + 코딩 특화 | 기술 문서, 알고리즘 |
| gpt-oss | OpenAI | MXFP4, 추론 강도 조절, 구조화 출력 | 코드 리뷰, 도구 호출, 로컬 에이전트 |
| GLM | Z.ai / THUDM | 긴 컨텍스트, 코딩, 최신 cloud/flash 라인업 | 한중영 작업, UI 생성, 에이전트 코딩 |
| EXAONE | LG AI Research | 한영 이중언어, reasoning 계열 병행 | 한국어 문서, 지식 작업, 추론 |
| Devstral | Mistral AI + All Hands AI | 에이전트형 코딩, 128K, 도구 사용 | 코드베이스 탐색, 다중 파일 수정 |
| Granite | IBM | 128K, thinking, FIM, 함수 호출 | RAG, 요약, 비즈니스 챗봇 |
| Command R | Cohere | RAG, 도구 사용, 다국어 | 사내 검색, 문서 QA, 요약 |
| StarCoder2 | BigCode | 코드 전용, 투명한 학습 데이터 | 경량 코드 완성, 로컬 IDE 보조 |
모델 선택 프로세스
모델 선택 의사결정 흐름: 용도와 자원에 따라 후보를 좁히는 과정
Ollama 모델 이름은 일반적으로 다음 형식을 따릅니다:
모델명:크기-양자화
# 예시
llama3.2:7b-instruct-q4_0
│ │ │ └─ 양자화 레벨 (4-bit)
│ │ └─────────── 튜닝 타입 (instruction)
│ └─────────────── 파라미터 크기 (7 billion)
└─────────────────────── 모델 패밀리 (Llama 3.2)
Llama 시리즈
Meta의 Llama (Large Language Model Meta AI)는 가장 인기 있는 오픈소스 LLM 패밀리입니다. Ollama에서 지원하는 Llama 모델은 다음과 같습니다.
Llama 4 (최신)
2025년 4월 출시된 Llama 4는 MoE (Mixture of Experts) 아키텍처를 도입하고 네이티브 멀티모달(이미지+텍스트)을 지원하는 최신 세대입니다.
| 모델명 | 활성 파라미터 | 전체 파라미터 | 전문가 수 | 컨텍스트 | 특징 |
|---|---|---|---|---|---|
llama4:scout |
17B | 109B | 16 | 10M | MoE, 멀티모달 (이미지+텍스트) |
llama4:maverick |
17B | 400B | 128 | 1M | MoE, 대규모 전문가 구성 |
| Llama 4 Behemoth | 288B | ~2T | 16 | - | 아직 미공개, 학습 중 |
설치 및 실행
# Llama 4 Scout (MoE 109B, 17B 활성)
ollama run llama4:scout
# Llama 4 Maverick (MoE 400B, 17B 활성)
ollama run llama4:maverick
# 멀티모달 테스트 (이미지 입력)
ollama run llama4:scout "이 이미지에 무엇이 보이나요?" /path/to/image.jpg
Llama 3.2
2024년 9월 출시된 Llama 3.2는 경량화와 멀티모달 기능에 초점을 맞춘 버전입니다.
| 모델명 | 크기 | 컨텍스트 | RAM 요구 | 특징 |
|---|---|---|---|---|
llama3.2:1b |
1B | 128K | 1.3 GB | 초경량, 엣지 디바이스 |
llama3.2:3b |
3B | 128K | 2.0 GB | 모바일 최적화 |
llama3.2 |
7B | 128K | 4.7 GB | 일반 용도 추천 |
llama3.2:11b-vision |
11B | 128K | 7.9 GB | 이미지 이해 가능 |
llama3.2:90b-vision |
90B | 128K | 55 GB | 고성능 멀티모달 |
설치 및 실행
# 기본 모델 다운로드 (7B)
ollama pull llama3.2
# 경량 모델 (1B)
ollama pull llama3.2:1b
# 비전 모델 (이미지 처리)
ollama pull llama3.2:11b-vision
# 실행
ollama run llama3.2
>>> 안녕하세요. 한국어로 답변해주세요.
안녕하세요! 네, 한국어로 답변드리겠습니다. 무엇을 도와드릴까요?
Llama 3.1
2024년 7월 출시된 Llama 3.1은 대규모 컨텍스트 윈도우(128K 토큰)를 지원하며, 최대 405B 파라미터 모델까지 제공합니다.
| 모델명 | 크기 | RAM 요구 | 특징 |
|---|---|---|---|
llama3.1:8b |
8B | 4.7 GB | 일반 용도 |
llama3.1:70b |
70B | 40 GB | 고성능, 워크스테이션 |
llama3.1:405b |
405B | 231 GB | 최고 성능, 서버용 |
# Llama 3.1 8B 설치
ollama pull llama3.1:8b
# 특정 양자화 버전 선택
ollama pull llama3.1:8b-instruct-q4_0 # 4-bit 양자화
ollama pull llama3.1:8b-instruct-q8_0 # 8-bit 양자화 (고품질)
# 70B 모델 (강력한 GPU 필요)
ollama pull llama3.1:70b
Llama 3
2024년 4월 출시된 Llama 3는 뛰어난 성능과 안정성으로 여전히 많이 사용됩니다.
| 모델명 | 크기 | 컨텍스트 | RAM 요구 |
|---|---|---|---|
llama3:8b |
8B | 8K | 4.7 GB |
llama3:70b |
70B | 8K | 40 GB |
- 최신 고성능 (MoE):
llama4:scout(17B 활성, 109B 전체) 또는llama4:maverick - 멀티모달 (이미지+텍스트):
llama4:scout또는llama3.2:11b-vision - 제한된 리소스 (8GB 미만):
llama3.2:1b또는llama3.2:3b - 일반 개발 환경 (16GB):
llama3.2(7B) 또는llama3.1:8b - 고성능 워크스테이션 (32GB+):
llama3.1:70b - 초장문 컨텍스트 (10M 토큰):
llama4:scout
CodeLlama - 코딩 특화 모델
CodeLlama는 Llama 2를 코드 생성에 특화시킨 모델입니다. Python, JavaScript, C++, Java 등 다양한 언어를 지원하며, 특히 Python에서 뛰어난 성능을 보입니다.
CodeLlama 변형
| 모델명 | 크기 | 특징 | 주요 용도 |
|---|---|---|---|
codellama:7b |
7B | 기본 코드 모델 | 코드 완성, 생성 |
codellama:13b |
13B | 향상된 성능 | 복잡한 코드 생성 |
codellama:34b |
34B | 최고 성능 | 아키텍처 설계 |
codellama:7b-instruct |
7B | 대화형 코딩 | 페어 프로그래밍 |
codellama:7b-python |
7B | Python 전문 | Python 개발 |
실전 활용 예제
# CodeLlama 설치
ollama pull codellama:7b-instruct
# 코드 생성 예제
ollama run codellama:7b-instruct
>>> Write a Python function to calculate Fibonacci numbers with memoization
def fibonacci(n, memo={}):
"""
Calculate the nth Fibonacci number using memoization.
Args:
n: The position in the Fibonacci sequence
memo: Dictionary to store previously calculated values
Returns:
The nth Fibonacci number
"""
if n in memo:
return memo[n]
if n <= 1:
return n
memo[n] = fibonacci(n - 1, memo) + fibonacci(n - 2, memo)
return memo[n]
# 사용 예시
for i in range(10):
print(f"F({i}) = {fibonacci(i)}")
CodeLlama vs 일반 Llama
| 기준 | CodeLlama | Llama 3.2 |
|---|---|---|
| 코드 생성 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 일반 대화 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 코드 설명 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 디버깅 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 다국어 지원 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
- 일반 대화 능력은 범용 모델보다 제한적
- 최신 라이브러리/프레임워크 정보 부족 (학습 데이터 기준 2023년 초)
- 보안 취약점 검증 필요 (생성된 코드 검토 필수)
- 한국어 코드 주석 생성 품질이 Llama 3.x보다 낮음
Mistral & Mixtral
Mistral AI의 모델들은 효율성과 성능의 균형이 뛰어나며, 프로덕션 환경에서 많이 사용됩니다. Mistral 모델은 Ollama에서 지속적으로 업데이트되고 있습니다.
Mistral Small 3.1 (최신)
Mistral Small 3.1은 비전(이미지 입력) 기능을 지원하는 최신 소형 모델입니다. 24B 파라미터로 효율적이면서도 멀티모달 작업을 처리할 수 있습니다.
# Mistral Small 3.1 설치 (비전 지원)
ollama pull mistral-small3.1
# 실행
ollama run mistral-small3.1
Mistral 7B
Mistral 7B는 7B 파라미터임에도 불구하고 13B 모델과 비슷한 성능을 보이는 것으로 유명합니다.
# Mistral 7B 설치
ollama pull mistral
# Mistral 7B Instruct (대화 최적화)
ollama pull mistral:7b-instruct
# 실행
ollama run mistral:7b-instruct
| 특징 | 내용 |
|---|---|
| 파라미터 | 7.3B |
| 컨텍스트 | 32K 토큰 |
| RAM 요구 | 4.1 GB |
| 아키텍처 | Grouped-Query Attention |
| 강점 | 빠른 추론, 효율적 메모리 사용 |
Mixtral - Mixture of Experts
Mixtral은 MoE (Mixture of Experts) 아키텍처를 사용하여 큰 모델의 성능을 작은 메모리 풋프린트로 구현합니다.
# Mixtral 8x7B 설치
ollama pull mixtral
# Mixtral 8x22B (더 큰 모델)
ollama pull mixtral:8x22b
| 모델 | 구조 | RAM 요구 | 특징 |
|---|---|---|---|
mixtral:8x7b |
8개 전문가, 각 7B | 26 GB | 70B급 성능, 13B급 속도 |
mixtral:8x22b |
8개 전문가, 각 22B | 80 GB | 최고 성능 |
MoE 아키텍처 원리
MoE 구조: 라우터가 일부 전문가만 활성화해 효율을 높이는 방식
- 효율성: 전체 파라미터 중 일부만 사용하여 추론 속도 향상
- 전문화: 각 전문가가 특정 도메인에 특화
- 확장성: 전문가 추가로 성능 향상 가능
- 메모리: 큰 모델의 성능을 작은 활성 메모리로 구현
Mistral vs Llama 비교
| 항목 | Mistral 7B | Llama 3.2 7B |
|---|---|---|
| 추론 속도 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 메모리 효율 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 일반 성능 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 컨텍스트 길이 | 32K | 128K |
| 다국어 지원 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
Phi - 소형 고성능 모델 (Phi-4 시리즈)
Microsoft의 Phi 시리즈는 작은 크기로 큰 모델에 준하는 성능을 제공하는 것이 특징입니다. 최신 Phi-4 시리즈는 복잡한 추론, 수학, 코딩에서 크게 향상된 성능을 보여줍니다.
Phi-4 모델 라인업 (최신)
| 모델 | 크기 | RAM 요구 | 특징 |
|---|---|---|---|
phi4 |
14B | 8.0 GB | 복잡한 추론, 수학, 코딩 |
phi4-mini |
3.8B | 2.4 GB | 다국어, function calling 지원 |
phi4-reasoning |
14B | 8.0 GB | reasoning 특화, 단계별 사고 |
phi4-multimodal |
14B | 8.5 GB | 텍스트+이미지+음성 입력 |
Phi-3 모델 라인업 (이전 세대)
| 모델 | 크기 | RAM 요구 | 특징 |
|---|---|---|---|
phi3:mini |
3.8B | 2.3 GB | 초경량, 모바일 가능 |
phi3:medium |
14B | 7.9 GB | 균형잡힌 성능 |
phi3.5 |
3.8B | 2.3 GB | Phi-3 개선 버전 |
Phi 사용 예제
# Phi-4 설치 (추론/코딩 최강)
ollama pull phi4
# Phi-4 mini 설치 (경량, function calling)
ollama pull phi4-mini
# Phi-4 reasoning (추론 특화)
ollama pull phi4-reasoning
# 실행
ollama run phi4
>>> 양자 얽힘을 간단하게 설명해줘
양자 얽힘은 마치 두 개의 마법 동전이 신비롭게 연결되어 있는 것과 같습니다.
하나의 동전을 던져 앞면이 나오면, 다른 동전은 즉시 뒷면이 나옵니다.
아무리 멀리 떨어져 있어도 이 연결은 빛보다 빠르게 일어납니다.
이것은 아인슈타인을 당황하게 했고 그는 이를 "잠 Entangled action at a distance"라 불렀습니다.
Phi vs 다른 소형 모델 벤치마크
| 모델 | 크기 | MMLU | HumanEval | 추론 속도 |
|---|---|---|---|---|
| Phi-3 mini | 3.8B | 69.0% | 58.5% | ⭐⭐⭐⭐⭐ |
| Gemma 2B | 2.0B | 42.3% | 22.0% | ⭐⭐⭐⭐⭐ |
| Llama 3.2 3B | 3.0B | 63.4% | 54.2% | ⭐⭐⭐⭐ |
| Mistral 7B | 7.0B | 62.5% | 40.2% | ⭐⭐⭐⭐ |
- 엣지 컴퓨팅: Raspberry Pi, 임베디드 시스템
- 모바일 앱: 온디바이스 AI 기능
- 실시간 처리: 빠른 응답 필요한 챗봇
- 배치 처리: 대량 문서 분석
- 프로토타이핑: 빠른 실험과 반복
Gemma - Google의 경량 모델
Google의 Gemma는 Gemini 모델의 기술을 기반으로 개발된 오픈소스 모델입니다. 최신 Gemma 3/4 시리즈는 멀티모달과 140개 이상의 언어를 지원합니다.
Gemma 4 (최신)
Gemma 4는 동영상, 이미지, 텍스트를 모두 처리할 수 있는 멀티모달 모델로, 가변 이미지 해상도를 지원합니다.
| 모델 | 크기 | 아키텍처 | 컨텍스트 | 특징 |
|---|---|---|---|---|
gemma4:e2b |
E2B | MoE | 128K | 초경량 MoE |
gemma4:e4b |
E4B | MoE | 128K | 경량 MoE |
gemma4:26b |
26B | MoE | 256K | 멀티모달 (비디오+이미지+텍스트) |
gemma4:31b |
31B | Dense | 256K | 고성능 Dense 모델 |
Gemma 3
2025년 3월 출시된 Gemma 3는 멀티모달(비전+텍스트)을 지원하며 128K 컨텍스트, 140개 이상의 언어를 처리합니다.
| 모델 | 크기 | 컨텍스트 | 특징 |
|---|---|---|---|
gemma3:1b |
1B | 128K | 초경량, 텍스트 전용 |
gemma3:4b |
4B | 128K | 멀티모달 (비전+텍스트) |
gemma3:12b |
12B | 128K | 멀티모달, 균형 성능 |
gemma3:27b |
27B | 128K | 멀티모달, 고성능 |
# Gemma 3 4B 설치 (멀티모달, 권장)
ollama pull gemma3:4b
# Gemma 3 27B 설치 (고성능)
ollama pull gemma3:27b
# 실행
ollama run gemma3:4b
Gemma 2 / Gemma 1 (이전 세대)
| 모델 | 크기 | RAM 요구 | 특징 |
|---|---|---|---|
gemma:2b |
2B | 1.4 GB | 초경량 |
gemma:7b |
7B | 4.8 GB | 일반 용도 |
gemma2:9b |
9B | 5.4 GB | Gemma 2 세대 |
gemma2:27b |
27B | 16 GB | Gemma 2 고성능 |
Gemma의 주요 특징
- 멀티모달: Gemma 3/4에서 이미지, 비디오 입력 지원
- 140개+ 언어: 한국어 포함 광범위한 다국어 지원
- 안전성 강화: 유해 콘텐츠 필터링 내장
- 상업적 사용 가능: 제한 없는 라이선스
- 빠른 추론: 최적화된 추론 속도
Gemma 3/4 시리즈의 주요 개선사항:
- 네이티브 멀티모달 지원 (비전+텍스트, Gemma 4는 비디오까지)
- 128K~256K 컨텍스트 윈도우
- 140개 이상의 언어 지원
- Gemma 4는 MoE 아키텍처 도입으로 효율성 향상
- 가변 이미지 해상도 지원 (Gemma 4)
Qwen - 다국어 강자
Alibaba의 Qwen (통의천문)은 특히 중국어와 다국어 처리에 강점을 보이는 모델입니다. Qwen 3 시리즈부터 thinking 모드를 지원하며, Apache 2.0 라이선스로 공개되었습니다. 2026년 4월 Qwen 3.6 시리즈가 출시되어 코딩 에이전트 성능에서 큰 도약을 이뤘습니다.
Qwen 3.6 ★ (최신, 2026-04)
2026년 4월 출시된 Qwen 3.6은 코딩 에이전트 성능을 대폭 향상시킨 시리즈입니다. 로컬 오픈소스 모델(Apache 2.0)과 API 전용 플래그십 모델을 모두 제공합니다.
- Qwen3.6-35B-A3B (2026-04-16): MoE 아키텍처, 35B 전체/3B 활성, SWE-bench 73.4%, 22GB RAM으로 로컬 구동
- Qwen3.6-27B (2026-04-22): Dense 모델, SWE-bench 77.2%, 397B-A17B 모델을 모든 코딩 벤치마크에서 능가
- Qwen3.6 Plus (API, 2026-04-02): 1M 컨텍스트, SWE-bench 78.8%, $0.325/$1.95 per MTok
- Qwen3.6 Max Preview (API, 2026-04-20): 플래그십, 6개 최고 코딩 벤치마크 1위, 260K 컨텍스트
- 201개 언어·방언 지원, preserve_thinking 에이전트 기능, OpenAI/Anthropic API 호환
| 모델 (Ollama) | 크기 | 아키텍처 | 출시 | SWE-bench | RAM | 특징 |
|---|---|---|---|---|---|---|
qwen3.6:27b |
27B | Dense | 2026.04 | 77.2% | ~55GB | 고성능 Dense, 397B MoE 능가 |
qwen3.6:35b-a3b |
35B-A3B | MoE | 2026.04 | 73.4% | ~22GB | 로컬 추천, 소비자 GPU 가능 |
# 경량 MoE (22GB RAM, 소비자 GPU)
$ ollama run qwen3.6:35b-a3b
# 고성능 Dense (충분한 RAM 필요)
$ ollama run qwen3.6:27b
# thinking 모드 활성화 (모델 내장 지원)
$ ollama run qwen3.6:35b-a3b "/think 이 코드의 버그를 찾아줘"
# 컨텍스트 윈도우: 262,144 tokens
# Apache 2.0 라이선스 (상업적 이용 가능)
Qwen 3.5 (이전 세대)
2026년 출시된 Qwen 3.5는 MoE 및 Dense 모델을 제공합니다.
| 모델 | 크기 | 아키텍처 | 출시 | 특징 |
|---|---|---|---|---|
qwen3.5:a17b |
397B-A17B | MoE | 2026.02 | 최고 성능 MoE |
qwen3.5:9b |
9B | Dense | 2026.03 | 일반 용도 |
qwen3.5:4b |
4B | Dense | 2026.03 | 경량 모델 |
Qwen 3
2025년 4월 출시된 Qwen 3는 Dense 모델과 MoE 모델을 모두 제공하며, thinking 모드(단계별 추론)를 지원합니다. Apache 2.0 라이선스입니다.
| 모델 | 크기 | 아키텍처 | 특징 |
|---|---|---|---|
qwen3:0.6b |
0.6B | Dense | 극소형 |
qwen3:1.7b |
1.7B | Dense | 경량 |
qwen3:4b |
4B | Dense | 모바일/엣지 |
qwen3:8b |
8B | Dense | 일반 용도 추천 |
qwen3:14b |
14B | Dense | 중급 성능 |
qwen3:32b |
32B | Dense | 고성능 |
qwen3:30b-a3b |
30B-A3B | MoE | MoE, 3B 활성 |
qwen3:235b-a22b |
235B-A22B | MoE | MoE, 22B 활성, 최고 성능 |
Qwen 2 / 2.5 (이전 세대)
| 모델 | 크기 | RAM 요구 | 특징 |
|---|---|---|---|
qwen2.5-coder |
7B | 4.4 GB | 코딩 특화 (여전히 유용) |
qwen2:7b |
7B | 4.4 GB | 일반 용도 |
qwen2:72b |
72B | 41 GB | 고성능 |
Qwen 실전 예제
# Qwen 3 8B 설치 (추천)
ollama pull qwen3:8b
# Qwen 3 32B 설치 (고성능)
ollama pull qwen3:32b
# 코딩 특화 버전 (Qwen2.5-Coder)
ollama pull qwen2.5-coder
# 다국어 테스트
ollama run qwen3:8b
>>> 한국어로 머신러닝을 설명해줘
# 한국어 응답:
머신러닝은 인공지능의 한 분야로, 컴퓨터가 명시적인 프로그래밍
없이도 데이터로부터 학습하고 성능을 개선할 수 있게 합니다.
Qwen의 강점
- thinking 모드: Qwen 3부터 단계별 추론(thinking) 모드 지원
- 다국어: 영어, 중국어, 한국어, 일본어 등 29개+ 언어 지원
- MoE + Dense: 다양한 아키텍처 선택 가능
- 긴 컨텍스트: 최대 128K 토큰
- 수학/코딩: GSM8K, HumanEval에서 높은 점수
- Apache 2.0: 자유로운 상업적 사용
- 다국어 챗봇 개발
- 한중일 번역 서비스
- thinking 모드 활용한 복잡한 추론
- 코딩 어시스턴트 (Qwen2.5-Coder)
DeepSeek - 추론 + 코딩 전문가
DeepSeek은 특히 추론, 코딩, 수학 문제에 강한 성능을 보이는 중국 기반 모델입니다. DeepSeek R1은 thinking/reasoning 모델로 큰 주목을 받았으며, V3는 범용 고성능 모델입니다.
DeepSeek R1 (추론 모델)
DeepSeek R1은 단계별 사고(thinking/reasoning)를 수행하는 모델입니다. 전체 671B 파라미터 모델 외에 다양한 크기의 distilled(증류) 버전을 제공합니다. 128K 컨텍스트를 지원하며, R1-0528 업그레이드가 적용되었습니다.
| 모델 | 크기 | RAM 요구 | 특징 |
|---|---|---|---|
deepseek-r1:1.5b |
1.5B (distilled) | 1.0 GB | 초경량 추론 |
deepseek-r1:7b |
7B (distilled) | 4.7 GB | 경량 추론 |
deepseek-r1:8b |
8B (distilled) | 4.9 GB | 일반 추론 추천 |
deepseek-r1:14b |
14B (distilled) | 9.0 GB | 중급 추론 |
deepseek-r1:32b |
32B (distilled) | 19 GB | 고성능 추론 |
deepseek-r1:70b |
70B (distilled) | 40 GB | 최고 성능 추론 |
deepseek-r1:671b |
671B (full) | 380+ GB | 전체 모델, 서버용 |
DeepSeek V3
DeepSeek V3는 671B MoE (37B 활성) 아키텍처의 범용 모델입니다. 128K 컨텍스트를 지원하며, 2025년 8월 V3.1이 출시되었습니다.
| 모델 | 크기 | 아키텍처 | 특징 |
|---|---|---|---|
deepseek-v3 |
671B (37B 활성) | MoE | 범용 고성능, V3.1 업그레이드 |
DeepSeek Coder (이전 세대)
DeepSeek Coder는 코딩 특화 모델로, 최신 R1/V3로 대체되고 있습니다.
| 모델 | 크기 | RAM 요구 | 특징 |
|---|---|---|---|
deepseek-coder-v2 |
16B | 9.0 GB | 코딩 특화 (이전 세대) |
DeepSeek 사용 예제
# DeepSeek R1 8B 설치 (추론 모델, 추천)
ollama pull deepseek-r1:8b
# DeepSeek R1 32B 설치 (고성능 추론)
ollama pull deepseek-r1:32b
# DeepSeek V3 설치 (범용 고성능)
ollama pull deepseek-v3
# 추론 모델 실행
ollama run deepseek-r1:8b
>>> Implement a B-tree insertion algorithm in Python
class BTreeNode:
def __init__(self, leaf=True):
self.keys = []
self.children = []
self.leaf = leaf
class BTree:
def __init__(self, t):
self.root = BTreeNode()
self.t = t # Minimum degree
def insert(self, key):
root = self.root
if len(root.keys) == (2 * self.t) - 1:
# Root is full, split it
new_root = BTreeNode(leaf=False)
new_root.children.append(self.root)
self._split_child(new_root, 0)
self.root = new_root
self._insert_non_full(self.root, key)
def _split_child(self, parent, index):
t = self.t
full_child = parent.children[index]
new_child = BTreeNode(leaf=full_child.leaf)
# Split keys
mid_key = full_child.keys[t - 1]
new_child.keys = full_child.keys[t:(2 * t) - 1]
full_child.keys = full_child.keys[0:t - 1]
# Split children if not leaf
if not full_child.leaf:
new_child.children = full_child.children[t:2 * t]
full_child.children = full_child.children[0:t]
# Insert mid_key into parent
parent.keys.insert(index, mid_key)
parent.children.insert(index + 1, new_child)
def _insert_non_full(self, node, key):
i = len(node.keys) - 1
if node.leaf:
# Insert into leaf
node.keys.append(None)
while i >= 0 and key < node.keys[i]:
node.keys[i + 1] = node.keys[i]
i -= 1
node.keys[i + 1] = key
else:
# Find child to insert into
while i >= 0 and key < node.keys[i]:
i -= 1
i += 1
if len(node.children[i].keys) == (2 * self.t) - 1:
self._split_child(node, i)
if key > node.keys[i]:
i += 1
self._insert_non_full(node.children[i], key)
DeepSeek 벤치마크
| 벤치마크 | DeepSeek R1 (distilled 32B) | DeepSeek V3 | Llama 4 Scout |
|---|---|---|---|
| HumanEval | 85.2% | 82.6% | 78.4% |
| MBPP | 78.5% | 76.8% | 72.1% |
| GSM8K (수학) | 92.3% | 88.5% | 85.6% |
추가로 볼 만한 최신 모델 패밀리
기존 Llama, Qwen, DeepSeek 외에도 최근 Ollama에서 자주 비교되는 모델들이 빠르게 늘고 있습니다. 특히 코딩 에이전트, 한국어 품질, RAG/도구 호출, 로컬 고성능 추론 관점에서는 아래 계열을 함께 보는 것이 실전적입니다.
gpt-oss
gpt-oss는 OpenAI의 오픈 웨이트 모델로, 로컬 실행 가능한 고성능 추론 계열입니다. Ollama는 MXFP4 양자화를 네이티브 지원하므로 gpt-oss:20b는 16GB급 메모리에서 시작할 수 있고, gpt-oss:120b는 80GB급 GPU 환경을 겨냥합니다. 함수 호출, 구조화 출력, 추론 강도 조절이 필요한 개발용 워크플로에 특히 잘 맞습니다.
| 모델 | 크기 | 실행 환경 | 강점 | 추천 상황 |
|---|---|---|---|---|
gpt-oss:20b |
20.9B / 14GB | 16GB급 메모리부터 | 낮은 지연, 도구 호출, 구조화 출력 | 로컬 코드 리뷰, 자동화, 개발용 에이전트 |
gpt-oss:120b |
117B / 65GB | 80GB급 GPU | 높은 추론 품질, 대형 에이전트 워크로드 | 복잡한 리뷰, 고난도 추론, 서버용 |
# 로컬 고성능 추론 / 에이전트 작업
ollama pull gpt-oss:20b
ollama run gpt-oss:20b
# 더 큰 워크스테이션 / 서버 환경
ollama pull gpt-oss:120b
GLM 계열
GLM 계열은 로컬 태그와 cloud 태그가 공존합니다. glm4는 9B/128K 로컬 모델이고, glm-4.7-flash는 30B-A3B/198K 경량 MoE이며, glm-5:cloud는 최신 Z.ai MoE 계열로 복잡한 코딩과 에이전트 작업을 겨냥합니다. 한중영 혼합 문서, UI 생성, 터미널 중심 코딩 워크플로우에서 후보로 넣어둘 가치가 큽니다.
| 모델 | 크기 | 유형 | 강점 | 추천 상황 |
|---|---|---|---|---|
glm4 |
9B / 5.5GB | 로컬 | 128K, 다국어, 범용 작업 | 한중영 문서 작업, 일반 대화 |
glm-4.7-flash |
30B-A3B / 19GB | 로컬 | 198K, 경량 MoE, UI/코딩 품질 | 고급 코딩, 긴 컨텍스트, Vibe Coding |
glm-5:cloud |
최신 상위 계열 / 198K | cloud | 복잡한 추론, 코딩, 에이전트 작업 | 로컬 GPU가 부족한 최신 상위 모델 대안 |
ollama run glm4와 ollama run glm-4.7-flash는 로컬 실행이지만, glm-5:cloud는 Ollama Cloud/Launch 기반 태그입니다. 오프라인이나 폐쇄망 환경에서는 glm4 또는 glm-4.7-flash 같은 로컬 태그를 우선 검토하세요.
실무에서 함께 비교할 모델
| 패밀리 | 대표 태그 | 강점 | 추천 상황 |
|---|---|---|---|
| Devstral | devstral-small-2 |
에이전트형 코딩, 코드베이스 탐색, 다중 파일 수정 | CLI 기반 코드 에이전트, 리팩토링 |
| EXAONE 3.5 | exaone3.5:7.8b |
한국어/영어 이중언어, 32K, 균형형 | 한국어 문서, 일반 업무, 지식 작업 |
| EXAONE Deep | exaone-deep:7.8b |
수학, 코딩, 추론 강화 | 추론 중심 작업, 한국어 기술 설명 |
| Granite 3.3 | granite3.3:8b |
128K, thinking, FIM, function calling | RAG, 요약, 비즈니스 챗봇 |
| Command R | command-r7b |
RAG, 도구 사용, 23개 언어 | 사내 문서 검색, 요약, 질의응답 |
| StarCoder2 | starcoder2:7b |
코드 전용, 가벼운 배포, 투명한 학습 데이터 | 로컬 IDE 보조, 빠른 코드 완성 |
- 한국어 우선:
exaone3.5:7.8b,qwen3:8b,glm4 - 코딩 에이전트:
devstral-small-2,gpt-oss:20b,deepseek-r1:32b - 장문 문서 / RAG:
command-r7b,granite3.3:8b,glm-4.7-flash
특수 목적 모델
Ollama는 특정 작업에 특화된 다양한 모델도 지원합니다.
멀티모달 (비전) 모델
| 모델 | 특징 | 사용 예 |
|---|---|---|
llama4:scout |
17B 활성, 네이티브 멀티모달 | 이미지+텍스트, 10M 컨텍스트 |
llama4:maverick |
17B 활성, 128 전문가 MoE | 고성능 멀티모달 |
gemma3:4b |
4B, 비전+텍스트, 128K | 경량 멀티모달 |
gemma3:27b |
27B, 비전+텍스트, 128K | 고성능 멀티모달 |
phi4-multimodal |
14B, 텍스트+이미지+음성 | 멀티 입력 처리 |
llava |
7B, 이미지 + 텍스트 | 이미지 설명, OCR |
llama3.2:11b-vision |
11B, Llama 3.2 기반 | 프로덕션 비전 앱 |
비전 모델 사용 예제
# LLaVA 설치
ollama pull llava
# 이미지와 함께 프롬프트 전송
ollama run llava "What's in this image?" /path/to/image.jpg
# API를 통한 이미지 분석
curl http://localhost:11434/api/generate -d '{
"model": "llava",
"prompt": "이 이미지를 상세히 설명해줘",
"images": ["'$(base64 < image.jpg)'"]
}'
임베딩 모델
벡터 검색, RAG (Retrieval-Augmented Generation)에 사용되는 임베딩 모델들입니다.
| 모델 | 차원 | 특징 |
|---|---|---|
nomic-embed-text |
768 | 영어 특화, 빠름 |
mxbai-embed-large |
1024 | 고품질 임베딩 |
all-minilm |
384 | 경량, 빠른 속도 |
임베딩 생성 예제
# 임베딩 모델 설치
ollama pull nomic-embed-text
# Python으로 임베딩 생성
import requests
def get_embedding(text):
response = requests.post(
'http://localhost:11434/api/embeddings',
json={
'model': 'nomic-embed-text',
'prompt': text
}
)
return response.json()['embedding']
# 사용 예시
text = "Ollama is a tool for running LLMs locally"
embedding = get_embedding(text)
print(f"Embedding dimension: {len(embedding)}") # 768
기타 특화 모델
| 모델 | 특화 분야 | 설명 |
|---|---|---|
gpt-oss-safeguard |
안전 정책 판단 | 입력/출력 필터링, 정책 라벨링 |
mathstral |
수학 추론 | 다단계 수학 문제, 계산 검토 |
aya-expanse |
다국어 | 한국어 포함 폭넓은 다국어 응답 |
yi-coder |
장문 코딩 | 128K 장문 코드 문맥 처리 |
starcoder2:instruct |
코드 지시 수행 | IDE 보조, 샘플 생성, 코드 설명 |
양자화 레벨 이해
양자화는 모델의 가중치를 낮은 정밀도로 변환하여 메모리 사용량과 추론 속도를 개선하는 기술입니다.
양자화 타입
| 타입 | 비트 | 품질 | 메모리 | 속도 | 사용 시기 |
|---|---|---|---|---|---|
fp16 |
16-bit | ⭐⭐⭐⭐⭐ | 100% | ⭐⭐⭐ | 최고 품질 필요 |
q8_0 |
8-bit | ⭐⭐⭐⭐⭐ | 50% | ⭐⭐⭐⭐ | 품질 중시 |
q6_K |
6-bit | ⭐⭐⭐⭐ | 38% | ⭐⭐⭐⭐ | 균형잡힌 선택 |
q5_K_M |
5-bit | ⭐⭐⭐⭐ | 31% | ⭐⭐⭐⭐⭐ | 일반 권장 |
q4_K_M |
4-bit | ⭐⭐⭐ | 25% | ⭐⭐⭐⭐⭐ | 제한된 RAM |
q4_0 |
4-bit | ⭐⭐⭐ | 25% | ⭐⭐⭐⭐⭐ | 속도 우선 |
q3_K_M |
3-bit | ⭐⭐ | 19% | ⭐⭐⭐⭐⭐ | 극한 환경 |
q2_K |
2-bit | ⭐ | 12% | ⭐⭐⭐⭐⭐ | 실험적 |
양자화 비교 예제
# 다양한 양자화 버전 비교
# Llama 3.2 7B 기준
ollama pull llama3.2:7b-instruct-fp16 # ~14 GB
ollama pull llama3.2:7b-instruct-q8_0 # ~7.7 GB
ollama pull llama3.2:7b-instruct-q6_K # ~5.9 GB
ollama pull llama3.2:7b-instruct-q5_K_M # ~5.1 GB (권장)
ollama pull llama3.2:7b-instruct-q4_K_M # ~4.4 GB
ollama pull llama3.2:7b-instruct-q4_0 # ~4.1 GB
ollama pull llama3.2:7b-instruct-q3_K_M # ~3.2 GB
ollama pull llama3.2:7b-instruct-q2_K # ~2.6 GB
양자화 레벨별 품질과 속도의 균형 비교
- RAM 32GB+:
q8_0또는fp16(최고 품질) - RAM 16GB:
q5_K_M또는q6_K(권장) - RAM 8GB:
q4_K_M또는q4_0 - RAM 4GB 이하:
q3_K_M또는 더 작은 모델 선택
참고: K 접미사는 K-quant 방식을 의미하며, 일반적으로 같은 비트 수에서 더 나은 품질을 제공합니다.
양자화 명명 규칙 상세
# 양자화 타입 해석
q4_K_M
│ │ └─ M = Medium (중간 품질)
│ └─── K = K-quant 방식
└───── 4 = 4-bit 양자화
# 변형
q4_K_S # S = Small (가장 빠름, 낮은 품질)
q4_K_M # M = Medium (균형)
q4_K_L # L = Large (높은 품질, 느림)
# 레거시 형식
q4_0 # 구식 4-bit 양자화
q4_1 # 개선된 4-bit (bias 추가)
용도별 모델 선택 가이드
작업 유형별 추천
| 작업 유형 | 1순위 | 2순위 | 3순위 |
|---|---|---|---|
| 일반 대화 | qwen3:8b | exaone3.5:7.8b | glm4 |
| 코드 생성 | devstral-small-2 | gpt-oss:20b | deepseek-r1:32b |
| 코드 리뷰 | gpt-oss:120b | devstral-2 | deepseek-r1:32b |
| 번역 | qwen3:8b | glm4 | exaone3.5:7.8b |
| 요약 | command-r7b | granite3.3:8b | qwen3:8b |
| 수학/추론 | deepseek-r1:8b | gpt-oss:20b | exaone-deep:7.8b |
| RAG / 도구 사용 | command-r7b | granite3.3:8b | gpt-oss:20b |
| 한국어 문서 작업 | exaone3.5:7.8b | qwen3:8b | glm4 |
| 이미지 분석 | llama4:scout | gemma3:27b | phi4-multimodal |
| 임베딩 | nomic-embed-text | mxbai-embed-large | all-minilm |
하드웨어별 추천
8GB RAM (통합 그래픽)
exaone3.5:2.4b- 1.6 GBgranite3.3:2b- 1.5 GBqwen3:1.7b- 1.2 GBllama3.2:3b- 2.0 GB
16GB RAM (일반 개발자 노트북)
gpt-oss:20b- 14 GB 다운로드, 16GB급 메모리부터glm4- 5.5 GBexaone3.5:7.8b- 4.8 GBgranite3.3:8b- 4.9 GB
32GB RAM (고성능 워크스테이션)
devstral-small-2- 24B, 32GB Mac / RTX 4090급deepseek-r1:32b- 19 GBqwen3:32b- 19 GBglm-4.7-flash- 19 GBgemma3:27b- 16 GB
64GB+ RAM + 고성능 GPU
gpt-oss:120b- 65 GBdeepseek-r1:70b- 40 GBllama3.1:70b- 40 GBmixtral:8x22b- 80 GB
언어별 추천
| 언어 | 최적 모델 | 설명 |
|---|---|---|
| 한국어 | exaone3.5, qwen3, glm4 | 자연스러운 한국어 생성과 문서 작업 |
| 중국어 | glm4 / glm-5:cloud, qwen3, deepseek-r1 | 중국어 특화 학습과 한중영 혼합 업무 |
| 일본어 | qwen3, granite3.3, gemma3 | 다국어 지원 우수 |
| 영어 | gpt-oss, devstral, command-r | 코딩, RAG, 에이전트형 워크플로에 강함 |
| 유럽어 | mistral, command-r, granite3.3 | 다국어 균형과 요약/RAG 업무 |
모델 태그 시스템
Ollama는 Docker와 유사한 태그 시스템을 사용합니다.
태그 예제
# 기본 형식
모델명:태그
# 태그 생략 시 :latest 자동 적용
ollama pull llama3.2
# = ollama pull llama3.2:latest
# 크기 지정
ollama pull llama3.2:7b
ollama pull llama3.2:3b
ollama pull llama3.2:1b
# 크기 + 튜닝 타입
ollama pull llama3.2:7b-instruct
ollama pull llama3.2:7b-text
# 크기 + 튜닝 + 양자화
ollama pull llama3.2:7b-instruct-q4_K_M
ollama pull llama3.2:7b-instruct-q8_0
# 특수 변형
ollama pull llama3.2:11b-vision
ollama pull codellama:7b-python
태그 구성 요소
| 요소 | 예시 | 설명 |
|---|---|---|
| 크기 | 7b, 13b, 70b |
파라미터 수 (billion) |
| 튜닝 | instruct, chat, text |
파인튜닝 타입 |
| 양자화 | q4_0, q5_K_M, fp16 |
압축 레벨 |
| 특수 | vision, python, coder |
특화 기능 |
태그 관리
# 설치된 모델 확인 (태그 포함)
ollama list
NAME ID SIZE MODIFIED
llama3.2:latest abc123 4.7 GB 2 days ago
llama3.2:7b-instruct-q4_0 def456 4.1 GB 1 week ago
mistral:7b-instruct-v0.2 ghi789 4.1 GB 3 days ago
# 특정 태그 삭제
ollama rm llama3.2:7b-instruct-q4_0
# 모델 정보 확인
ollama show llama3.2:7b-instruct-q4_0
# 모든 버전 확인 (원격 레지스트리)
ollama search llama3.2
:latest태그는 시간에 따라 변경될 수 있음 (재현성 주의)- 프로덕션에서는 명확한 태그 사용 권장 (
llama3.2:7b-instruct-q5_K_M) - 같은 모델의 다른 양자화 버전은 별도 다운로드 필요
- 태그는 대소문자 구분 (
7B≠7b)
모델 비교 매트릭스
종합 비교
모델 비교는 용도(대화/코딩/다국어), 하드웨어 제약, 지연 시간 목표를 기준으로 판단하는 것이 가장 안전합니다.
| 패밀리 | 대표 태그 | 강점 | 주의할 점 |
|---|---|---|---|
| Qwen | qwen3:8b |
다국어, 범용성, 추론 | 라인업이 많아 태그 선택이 헷갈릴 수 있음 |
| DeepSeek | deepseek-r1:8b |
추론, 코딩, 수학 | 응답이 다소 느려질 수 있음 |
| gpt-oss | gpt-oss:20b |
에이전트형 코딩, 구조화 출력 | 메모리 요구와 최신 Ollama 버전 확인 필요 |
| GLM | glm4, glm-4.7-flash |
한중영, 긴 컨텍스트, UI/코딩 | 상위 최신 태그 일부는 cloud 전용 |
| EXAONE | exaone3.5:7.8b |
한국어 친화, 문서 작업 | 32K 컨텍스트로 장문 작업은 한계가 있음 |
| Devstral | devstral-small-2 |
코드베이스 탐색, 다중 파일 수정 | 텍스트 전용이며 일반 대화 모델로는 덜 적합 |
| Command R / Granite | command-r7b, granite3.3:8b |
RAG, 요약, 도구 사용 | 일반 대화 최고 품질만 놓고 보면 다른 축이 더 강할 수 있음 |
객관적 벤치마크 점수
벤치마크 점수는 모델/버전/환경에 따라 크게 달라질 수 있습니다. 동일 조건에서 직접 테스트해 확인하세요.
- MMLU: 다양한 학술 주제에 대한 이해도 (0-100)
- HumanEval: Python 코드 생성 능력 (0-100)
- GSM8K: 초등 수학 문제 해결 능력 (0-100)
- TruthfulQA: 사실 기반 답변 정확도 (0-100)
모델 선택 모범 사례
평가 프로세스
-
요구사항 정의
- 주요 작업 유형 (대화, 코딩, 번역 등)
- 응답 품질 vs 속도 우선순위
- 다국어 지원 필요성
-
하드웨어 확인
- 사용 가능한 RAM/VRAM 크기
- GPU 유무 및 성능
- 저장 공간 (모델당 수 GB)
-
후보 모델 선정
- 3-5개 후보 모델 리스트업
- 다양한 양자화 레벨 포함
-
실전 테스트
- 실제 사용 케이스로 테스트
- 응답 품질, 속도, 메모리 사용량 측정
-
최종 선택
- 정량적 + 정성적 평가 결합
- 프로덕션 환경 고려
간단한 테스트 스크립트
#!/bin/bash
# 여러 모델 성능 비교 스크립트
MODELS=("qwen3:8b" "deepseek-r1:8b" "gemma3:4b")
PROMPT="Write a Python function to find prime numbers"
for model in "${MODELS[@]}"; do
echo "Testing $model..."
# 시간 측정
start=$(date +%s)
# 응답 생성
ollama run "$model" "$PROMPT" > "result_${model//:/_}.txt"
end=$(date +%s)
duration=$((end - start))
echo "$model: ${duration}s" >> benchmark.txt
# 메모리 사용량 확인
ollama ps | grep "$model" >> benchmark.txt
echo "---" >> benchmark.txt
done
echo "Benchmark complete. Check benchmark.txt for results."
추천 전략: 경량 모델로 초기 검증을 하고, 품질이 부족할 때만 더 큰 모델로 단계적으로 확장하세요. GPU/VRAM과 지연 시간 요구를 기준으로 균형점을 찾는 것이 중요합니다.
핵심 정리
- 범용 축은 여전히 Llama, Qwen, DeepSeek, Gemma이지만, 실무 후보군은 gpt-oss, GLM, EXAONE, Devstral까지 넓어졌습니다.
- 로컬 태그와
:cloud태그를 구분해야 하며, 하드웨어 예산과 오프라인 요구 사항이 모델 선택의 첫 기준입니다. - 코딩 에이전트, 한국어 문서, RAG처럼 작업 성격이 뚜렷할수록 범용 1개보다 특화 모델 2~3개를 A/B 테스트하는 편이 안전합니다.
실무 팁
- 한국어 품질이 중요하면
exaone3.5,qwen3,glm4를 같은 프롬프트 세트로 비교하세요. - 코딩 에이전트는
devstral-small-2,gpt-oss:20b,deepseek-r1:32b를 기준군으로 두면 판단이 빠릅니다. - 재현성이 필요하면
:latest와:cloud를 그대로 쓰지 말고, 구체적인 태그와 실행 조건을 문서화하세요.