Ollama 모델 가이드

Ollama에서 많이 쓰이는 오픈 웨이트 모델과 최신 cloud 태그 모델의 특징, 하드웨어 요구 사항, 선택 기준을 함께 정리합니다.

⚡ 빠른 시작
  1. ollama list 명령으로 설치된 모델 확인
  2. ollama pull qwen3:8b로 원하는 모델 다운로드
  3. ollama run qwen3:8b로 모델 실행
  4. ollama show qwen3:8b로 모델 정보 확인
  5. 용도에 맞는 모델을 선택해 프로젝트에 통합
☁️ 로컬 태그와 cloud 태그 구분

gpt-oss:20b, glm4, glm-4.7-flash처럼 로컬로 내려받는 태그와 glm-5:cloud처럼 Ollama Cloud/Launch를 요구하는 태그가 공존합니다. 실행 예제를 복사하기 전에 태그 뒤의 :cloud 여부를 먼저 확인하세요.

Ollama 모델 개요

Ollama는 다양한 오픈소스 LLM 모델을 로컬에서 실행할 수 있도록 지원하며, 일부 최신 모델은 cloud 태그로 연동할 수 있습니다. 각 모델은 특정 용도와 하드웨어 환경에 최적화되어 있으므로, 크기와 성능뿐 아니라 로컬 실행 여부, 컨텍스트 길이, 도구 사용 능력까지 함께 고려해야 합니다.

주요 모델 패밀리

Ollama가 지원하는 주요 모델 패밀리는 다음과 같습니다:

패밀리 개발사 특징 주요 용도
Llama Meta MoE (Llama 4), 멀티모달 일반 대화, 질의응답, 요약
CodeLlama Meta 코딩 특화, Python 강점 코드 생성, 디버깅, 리팩토링
Mistral Mistral AI 효율적, 고품질 빠른 추론, 프로덕션 배포
Mixtral Mistral AI MoE 아키텍처, 큰 모델 성능 복잡한 작업, 멀티태스킹
Phi Microsoft 소형 고성능, 추론 특화 리소스 제한 환경, 엣지
Gemma Google 멀티모달, 다국어 140개+ 실시간 응답, 모바일
Qwen Alibaba 다국어, thinking 모드 다국어 처리, 번역
DeepSeek DeepSeek 추론(R1) + 코딩 특화 기술 문서, 알고리즘
gpt-oss OpenAI MXFP4, 추론 강도 조절, 구조화 출력 코드 리뷰, 도구 호출, 로컬 에이전트
GLM Z.ai / THUDM 긴 컨텍스트, 코딩, 최신 cloud/flash 라인업 한중영 작업, UI 생성, 에이전트 코딩
EXAONE LG AI Research 한영 이중언어, reasoning 계열 병행 한국어 문서, 지식 작업, 추론
Devstral Mistral AI + All Hands AI 에이전트형 코딩, 128K, 도구 사용 코드베이스 탐색, 다중 파일 수정
Granite IBM 128K, thinking, FIM, 함수 호출 RAG, 요약, 비즈니스 챗봇
Command R Cohere RAG, 도구 사용, 다국어 사내 검색, 문서 QA, 요약
StarCoder2 BigCode 코드 전용, 투명한 학습 데이터 경량 코드 완성, 로컬 IDE 보조

모델 선택 프로세스

모델 선택 시작 주요 용도? Devstral / gpt-oss DeepSeek R1 Qwen 3 / GLM4 EXAONE 3.5 RAM 크기? (VRAM 포함) < 8GB Phi-4 / Granite 3.3 8-16GB gpt-oss 20B / EXAONE > 32GB gpt-oss 120B / R1 70B 양자화 레벨 선택

모델 선택 의사결정 흐름: 용도와 자원에 따라 후보를 좁히는 과정

💡 모델 명명 규칙

Ollama 모델 이름은 일반적으로 다음 형식을 따릅니다:

모델명:크기-양자화

# 예시
llama3.2:7b-instruct-q4_0
│       │   │         └─ 양자화 레벨 (4-bit)
│       │   └─────────── 튜닝 타입 (instruction)
│       └─────────────── 파라미터 크기 (7 billion)
└─────────────────────── 모델 패밀리 (Llama 3.2)

Llama 시리즈

Meta의 Llama (Large Language Model Meta AI)는 가장 인기 있는 오픈소스 LLM 패밀리입니다. Ollama에서 지원하는 Llama 모델은 다음과 같습니다.

Llama 4 (최신)

2025년 4월 출시된 Llama 4는 MoE (Mixture of Experts) 아키텍처를 도입하고 네이티브 멀티모달(이미지+텍스트)을 지원하는 최신 세대입니다.

모델명 활성 파라미터 전체 파라미터 전문가 수 컨텍스트 특징
llama4:scout 17B 109B 16 10M MoE, 멀티모달 (이미지+텍스트)
llama4:maverick 17B 400B 128 1M MoE, 대규모 전문가 구성
Llama 4 Behemoth 288B ~2T 16 - 아직 미공개, 학습 중

설치 및 실행

# Llama 4 Scout (MoE 109B, 17B 활성)
ollama run llama4:scout

# Llama 4 Maverick (MoE 400B, 17B 활성)
ollama run llama4:maverick

# 멀티모달 테스트 (이미지 입력)
ollama run llama4:scout "이 이미지에 무엇이 보이나요?" /path/to/image.jpg

Llama 3.2

2024년 9월 출시된 Llama 3.2는 경량화와 멀티모달 기능에 초점을 맞춘 버전입니다.

모델명 크기 컨텍스트 RAM 요구 특징
llama3.2:1b 1B 128K 1.3 GB 초경량, 엣지 디바이스
llama3.2:3b 3B 128K 2.0 GB 모바일 최적화
llama3.2 7B 128K 4.7 GB 일반 용도 추천
llama3.2:11b-vision 11B 128K 7.9 GB 이미지 이해 가능
llama3.2:90b-vision 90B 128K 55 GB 고성능 멀티모달

설치 및 실행

# 기본 모델 다운로드 (7B)
ollama pull llama3.2

# 경량 모델 (1B)
ollama pull llama3.2:1b

# 비전 모델 (이미지 처리)
ollama pull llama3.2:11b-vision

# 실행
ollama run llama3.2
>>> 안녕하세요. 한국어로 답변해주세요.
안녕하세요! 네, 한국어로 답변드리겠습니다. 무엇을 도와드릴까요?

Llama 3.1

2024년 7월 출시된 Llama 3.1은 대규모 컨텍스트 윈도우(128K 토큰)를 지원하며, 최대 405B 파라미터 모델까지 제공합니다.

모델명 크기 RAM 요구 특징
llama3.1:8b 8B 4.7 GB 일반 용도
llama3.1:70b 70B 40 GB 고성능, 워크스테이션
llama3.1:405b 405B 231 GB 최고 성능, 서버용
# Llama 3.1 8B 설치
ollama pull llama3.1:8b

# 특정 양자화 버전 선택
ollama pull llama3.1:8b-instruct-q4_0  # 4-bit 양자화
ollama pull llama3.1:8b-instruct-q8_0  # 8-bit 양자화 (고품질)

# 70B 모델 (강력한 GPU 필요)
ollama pull llama3.1:70b

Llama 3

2024년 4월 출시된 Llama 3는 뛰어난 성능과 안정성으로 여전히 많이 사용됩니다.

모델명 크기 컨텍스트 RAM 요구
llama3:8b 8B 8K 4.7 GB
llama3:70b 70B 8K 40 GB
🎯 Llama 모델 선택 가이드
  • 최신 고성능 (MoE): llama4:scout (17B 활성, 109B 전체) 또는 llama4:maverick
  • 멀티모달 (이미지+텍스트): llama4:scout 또는 llama3.2:11b-vision
  • 제한된 리소스 (8GB 미만): llama3.2:1b 또는 llama3.2:3b
  • 일반 개발 환경 (16GB): llama3.2 (7B) 또는 llama3.1:8b
  • 고성능 워크스테이션 (32GB+): llama3.1:70b
  • 초장문 컨텍스트 (10M 토큰): llama4:scout

CodeLlama - 코딩 특화 모델

CodeLlama는 Llama 2를 코드 생성에 특화시킨 모델입니다. Python, JavaScript, C++, Java 등 다양한 언어를 지원하며, 특히 Python에서 뛰어난 성능을 보입니다.

CodeLlama 변형

모델명 크기 특징 주요 용도
codellama:7b 7B 기본 코드 모델 코드 완성, 생성
codellama:13b 13B 향상된 성능 복잡한 코드 생성
codellama:34b 34B 최고 성능 아키텍처 설계
codellama:7b-instruct 7B 대화형 코딩 페어 프로그래밍
codellama:7b-python 7B Python 전문 Python 개발

실전 활용 예제

# CodeLlama 설치
ollama pull codellama:7b-instruct

# 코드 생성 예제
ollama run codellama:7b-instruct

>>> Write a Python function to calculate Fibonacci numbers with memoization

def fibonacci(n, memo={}):
    """
    Calculate the nth Fibonacci number using memoization.

    Args:
        n: The position in the Fibonacci sequence
        memo: Dictionary to store previously calculated values

    Returns:
        The nth Fibonacci number
    """
    if n in memo:
        return memo[n]

    if n <= 1:
        return n

    memo[n] = fibonacci(n - 1, memo) + fibonacci(n - 2, memo)
    return memo[n]

# 사용 예시
for i in range(10):
    print(f"F({i}) = {fibonacci(i)}")

CodeLlama vs 일반 Llama

기준 CodeLlama Llama 3.2
코드 생성 ⭐⭐⭐⭐⭐ ⭐⭐⭐
일반 대화 ⭐⭐⭐ ⭐⭐⭐⭐⭐
코드 설명 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
디버깅 ⭐⭐⭐⭐⭐ ⭐⭐⭐
다국어 지원 ⭐⭐⭐ ⭐⭐⭐⭐⭐
⚠️ CodeLlama 한계점
  • 일반 대화 능력은 범용 모델보다 제한적
  • 최신 라이브러리/프레임워크 정보 부족 (학습 데이터 기준 2023년 초)
  • 보안 취약점 검증 필요 (생성된 코드 검토 필수)
  • 한국어 코드 주석 생성 품질이 Llama 3.x보다 낮음

Mistral & Mixtral

Mistral AI의 모델들은 효율성과 성능의 균형이 뛰어나며, 프로덕션 환경에서 많이 사용됩니다. Mistral 모델은 Ollama에서 지속적으로 업데이트되고 있습니다.

Mistral Small 3.1 (최신)

Mistral Small 3.1은 비전(이미지 입력) 기능을 지원하는 최신 소형 모델입니다. 24B 파라미터로 효율적이면서도 멀티모달 작업을 처리할 수 있습니다.

# Mistral Small 3.1 설치 (비전 지원)
ollama pull mistral-small3.1

# 실행
ollama run mistral-small3.1

Mistral 7B

Mistral 7B는 7B 파라미터임에도 불구하고 13B 모델과 비슷한 성능을 보이는 것으로 유명합니다.

# Mistral 7B 설치
ollama pull mistral

# Mistral 7B Instruct (대화 최적화)
ollama pull mistral:7b-instruct

# 실행
ollama run mistral:7b-instruct
특징 내용
파라미터 7.3B
컨텍스트 32K 토큰
RAM 요구 4.1 GB
아키텍처 Grouped-Query Attention
강점 빠른 추론, 효율적 메모리 사용

Mixtral - Mixture of Experts

Mixtral은 MoE (Mixture of Experts) 아키텍처를 사용하여 큰 모델의 성능을 작은 메모리 풋프린트로 구현합니다.

# Mixtral 8x7B 설치
ollama pull mixtral

# Mixtral 8x22B (더 큰 모델)
ollama pull mixtral:8x22b
모델 구조 RAM 요구 특징
mixtral:8x7b 8개 전문가, 각 7B 26 GB 70B급 성능, 13B급 속도
mixtral:8x22b 8개 전문가, 각 22B 80 GB 최고 성능

MoE 아키텍처 원리

입력 토큰 라우터 전문가 선택 8개 전문가 중 2개 활성화 Expert 1 수학 ✓ 활성 Expert 2 코딩 Expert 3 언어 Expert 4 추론 ✓ 활성 ... 나머지 4개 출력 병합

MoE 구조: 라우터가 일부 전문가만 활성화해 효율을 높이는 방식

💡 MoE의 장점
  • 효율성: 전체 파라미터 중 일부만 사용하여 추론 속도 향상
  • 전문화: 각 전문가가 특정 도메인에 특화
  • 확장성: 전문가 추가로 성능 향상 가능
  • 메모리: 큰 모델의 성능을 작은 활성 메모리로 구현

Mistral vs Llama 비교

항목 Mistral 7B Llama 3.2 7B
추론 속도 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
메모리 효율 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
일반 성능 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
컨텍스트 길이 32K 128K
다국어 지원 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐

Phi - 소형 고성능 모델 (Phi-4 시리즈)

Microsoft의 Phi 시리즈는 작은 크기로 큰 모델에 준하는 성능을 제공하는 것이 특징입니다. 최신 Phi-4 시리즈는 복잡한 추론, 수학, 코딩에서 크게 향상된 성능을 보여줍니다.

Phi-4 모델 라인업 (최신)

모델 크기 RAM 요구 특징
phi4 14B 8.0 GB 복잡한 추론, 수학, 코딩
phi4-mini 3.8B 2.4 GB 다국어, function calling 지원
phi4-reasoning 14B 8.0 GB reasoning 특화, 단계별 사고
phi4-multimodal 14B 8.5 GB 텍스트+이미지+음성 입력

Phi-3 모델 라인업 (이전 세대)

모델 크기 RAM 요구 특징
phi3:mini 3.8B 2.3 GB 초경량, 모바일 가능
phi3:medium 14B 7.9 GB 균형잡힌 성능
phi3.5 3.8B 2.3 GB Phi-3 개선 버전

Phi 사용 예제

# Phi-4 설치 (추론/코딩 최강)
ollama pull phi4

# Phi-4 mini 설치 (경량, function calling)
ollama pull phi4-mini

# Phi-4 reasoning (추론 특화)
ollama pull phi4-reasoning

# 실행
ollama run phi4

>>> 양자 얽힘을 간단하게 설명해줘

양자 얽힘은 마치 두 개의 마법 동전이 신비롭게 연결되어 있는 것과 같습니다. 
하나의 동전을 던져 앞면이 나오면, 다른 동전은 즉시 뒷면이 나옵니다. 
아무리 멀리 떨어져 있어도 이 연결은 빛보다 빠르게 일어납니다. 
이것은 아인슈타인을 당황하게 했고 그는 이를 "잠 Entangled action at a distance"라 불렀습니다.

Phi vs 다른 소형 모델 벤치마크

모델 크기 MMLU HumanEval 추론 속도
Phi-3 mini 3.8B 69.0% 58.5% ⭐⭐⭐⭐⭐
Gemma 2B 2.0B 42.3% 22.0% ⭐⭐⭐⭐⭐
Llama 3.2 3B 3.0B 63.4% 54.2% ⭐⭐⭐⭐
Mistral 7B 7.0B 62.5% 40.2% ⭐⭐⭐⭐
🎯 Phi 추천 사용 사례
  • 엣지 컴퓨팅: Raspberry Pi, 임베디드 시스템
  • 모바일 앱: 온디바이스 AI 기능
  • 실시간 처리: 빠른 응답 필요한 챗봇
  • 배치 처리: 대량 문서 분석
  • 프로토타이핑: 빠른 실험과 반복

Gemma - Google의 경량 모델

Google의 Gemma는 Gemini 모델의 기술을 기반으로 개발된 오픈소스 모델입니다. 최신 Gemma 3/4 시리즈는 멀티모달과 140개 이상의 언어를 지원합니다.

Gemma 4 (최신)

Gemma 4는 동영상, 이미지, 텍스트를 모두 처리할 수 있는 멀티모달 모델로, 가변 이미지 해상도를 지원합니다.

모델 크기 아키텍처 컨텍스트 특징
gemma4:e2b E2B MoE 128K 초경량 MoE
gemma4:e4b E4B MoE 128K 경량 MoE
gemma4:26b 26B MoE 256K 멀티모달 (비디오+이미지+텍스트)
gemma4:31b 31B Dense 256K 고성능 Dense 모델

Gemma 3

2025년 3월 출시된 Gemma 3는 멀티모달(비전+텍스트)을 지원하며 128K 컨텍스트, 140개 이상의 언어를 처리합니다.

모델 크기 컨텍스트 특징
gemma3:1b 1B 128K 초경량, 텍스트 전용
gemma3:4b 4B 128K 멀티모달 (비전+텍스트)
gemma3:12b 12B 128K 멀티모달, 균형 성능
gemma3:27b 27B 128K 멀티모달, 고성능
# Gemma 3 4B 설치 (멀티모달, 권장)
ollama pull gemma3:4b

# Gemma 3 27B 설치 (고성능)
ollama pull gemma3:27b

# 실행
ollama run gemma3:4b

Gemma 2 / Gemma 1 (이전 세대)

모델 크기 RAM 요구 특징
gemma:2b 2B 1.4 GB 초경량
gemma:7b 7B 4.8 GB 일반 용도
gemma2:9b 9B 5.4 GB Gemma 2 세대
gemma2:27b 27B 16 GB Gemma 2 고성능

Gemma의 주요 특징

  • 멀티모달: Gemma 3/4에서 이미지, 비디오 입력 지원
  • 140개+ 언어: 한국어 포함 광범위한 다국어 지원
  • 안전성 강화: 유해 콘텐츠 필터링 내장
  • 상업적 사용 가능: 제한 없는 라이선스
  • 빠른 추론: 최적화된 추론 속도
💡 Gemma 세대별 비교

Gemma 3/4 시리즈의 주요 개선사항:

  • 네이티브 멀티모달 지원 (비전+텍스트, Gemma 4는 비디오까지)
  • 128K~256K 컨텍스트 윈도우
  • 140개 이상의 언어 지원
  • Gemma 4는 MoE 아키텍처 도입으로 효율성 향상
  • 가변 이미지 해상도 지원 (Gemma 4)

Qwen - 다국어 강자

Alibaba의 Qwen (통의천문)은 특히 중국어와 다국어 처리에 강점을 보이는 모델입니다. Qwen 3 시리즈부터 thinking 모드를 지원하며, Apache 2.0 라이선스로 공개되었습니다. 2026년 4월 Qwen 3.6 시리즈가 출시되어 코딩 에이전트 성능에서 큰 도약을 이뤘습니다.

Qwen 3.6 ★ (최신, 2026-04)

2026년 4월 출시된 Qwen 3.6은 코딩 에이전트 성능을 대폭 향상시킨 시리즈입니다. 로컬 오픈소스 모델(Apache 2.0)과 API 전용 플래그십 모델을 모두 제공합니다.

Qwen 3.6 모델 라인업 특징
  • Qwen3.6-35B-A3B (2026-04-16): MoE 아키텍처, 35B 전체/3B 활성, SWE-bench 73.4%, 22GB RAM으로 로컬 구동
  • Qwen3.6-27B (2026-04-22): Dense 모델, SWE-bench 77.2%, 397B-A17B 모델을 모든 코딩 벤치마크에서 능가
  • Qwen3.6 Plus (API, 2026-04-02): 1M 컨텍스트, SWE-bench 78.8%, $0.325/$1.95 per MTok
  • Qwen3.6 Max Preview (API, 2026-04-20): 플래그십, 6개 최고 코딩 벤치마크 1위, 260K 컨텍스트
  • 201개 언어·방언 지원, preserve_thinking 에이전트 기능, OpenAI/Anthropic API 호환
모델 (Ollama) 크기 아키텍처 출시 SWE-bench RAM 특징
qwen3.6:27b 27B Dense 2026.04 77.2% ~55GB 고성능 Dense, 397B MoE 능가
qwen3.6:35b-a3b 35B-A3B MoE 2026.04 73.4% ~22GB 로컬 추천, 소비자 GPU 가능
Ollama (Qwen3.6 실행)
# 경량 MoE (22GB RAM, 소비자 GPU)
$ ollama run qwen3.6:35b-a3b

# 고성능 Dense (충분한 RAM 필요)
$ ollama run qwen3.6:27b

# thinking 모드 활성화 (모델 내장 지원)
$ ollama run qwen3.6:35b-a3b "/think 이 코드의 버그를 찾아줘"

# 컨텍스트 윈도우: 262,144 tokens
# Apache 2.0 라이선스 (상업적 이용 가능)

Qwen 3.5 (이전 세대)

2026년 출시된 Qwen 3.5는 MoE 및 Dense 모델을 제공합니다.

모델 크기 아키텍처 출시 특징
qwen3.5:a17b 397B-A17B MoE 2026.02 최고 성능 MoE
qwen3.5:9b 9B Dense 2026.03 일반 용도
qwen3.5:4b 4B Dense 2026.03 경량 모델

Qwen 3

2025년 4월 출시된 Qwen 3는 Dense 모델과 MoE 모델을 모두 제공하며, thinking 모드(단계별 추론)를 지원합니다. Apache 2.0 라이선스입니다.

모델 크기 아키텍처 특징
qwen3:0.6b 0.6B Dense 극소형
qwen3:1.7b 1.7B Dense 경량
qwen3:4b 4B Dense 모바일/엣지
qwen3:8b 8B Dense 일반 용도 추천
qwen3:14b 14B Dense 중급 성능
qwen3:32b 32B Dense 고성능
qwen3:30b-a3b 30B-A3B MoE MoE, 3B 활성
qwen3:235b-a22b 235B-A22B MoE MoE, 22B 활성, 최고 성능

Qwen 2 / 2.5 (이전 세대)

모델 크기 RAM 요구 특징
qwen2.5-coder 7B 4.4 GB 코딩 특화 (여전히 유용)
qwen2:7b 7B 4.4 GB 일반 용도
qwen2:72b 72B 41 GB 고성능

Qwen 실전 예제

# Qwen 3 8B 설치 (추천)
ollama pull qwen3:8b

# Qwen 3 32B 설치 (고성능)
ollama pull qwen3:32b

# 코딩 특화 버전 (Qwen2.5-Coder)
ollama pull qwen2.5-coder

# 다국어 테스트
ollama run qwen3:8b

>>> 한국어로 머신러닝을 설명해줘

# 한국어 응답:
머신러닝은 인공지능의 한 분야로, 컴퓨터가 명시적인 프로그래밍
없이도 데이터로부터 학습하고 성능을 개선할 수 있게 합니다.

Qwen의 강점

  • thinking 모드: Qwen 3부터 단계별 추론(thinking) 모드 지원
  • 다국어: 영어, 중국어, 한국어, 일본어 등 29개+ 언어 지원
  • MoE + Dense: 다양한 아키텍처 선택 가능
  • 긴 컨텍스트: 최대 128K 토큰
  • 수학/코딩: GSM8K, HumanEval에서 높은 점수
  • Apache 2.0: 자유로운 상업적 사용
🌏 Qwen 추천 사용 사례
  • 다국어 챗봇 개발
  • 한중일 번역 서비스
  • thinking 모드 활용한 복잡한 추론
  • 코딩 어시스턴트 (Qwen2.5-Coder)

DeepSeek - 추론 + 코딩 전문가

DeepSeek은 특히 추론, 코딩, 수학 문제에 강한 성능을 보이는 중국 기반 모델입니다. DeepSeek R1은 thinking/reasoning 모델로 큰 주목을 받았으며, V3는 범용 고성능 모델입니다.

DeepSeek R1 (추론 모델)

DeepSeek R1은 단계별 사고(thinking/reasoning)를 수행하는 모델입니다. 전체 671B 파라미터 모델 외에 다양한 크기의 distilled(증류) 버전을 제공합니다. 128K 컨텍스트를 지원하며, R1-0528 업그레이드가 적용되었습니다.

모델 크기 RAM 요구 특징
deepseek-r1:1.5b 1.5B (distilled) 1.0 GB 초경량 추론
deepseek-r1:7b 7B (distilled) 4.7 GB 경량 추론
deepseek-r1:8b 8B (distilled) 4.9 GB 일반 추론 추천
deepseek-r1:14b 14B (distilled) 9.0 GB 중급 추론
deepseek-r1:32b 32B (distilled) 19 GB 고성능 추론
deepseek-r1:70b 70B (distilled) 40 GB 최고 성능 추론
deepseek-r1:671b 671B (full) 380+ GB 전체 모델, 서버용

DeepSeek V3

DeepSeek V3는 671B MoE (37B 활성) 아키텍처의 범용 모델입니다. 128K 컨텍스트를 지원하며, 2025년 8월 V3.1이 출시되었습니다.

모델 크기 아키텍처 특징
deepseek-v3 671B (37B 활성) MoE 범용 고성능, V3.1 업그레이드

DeepSeek Coder (이전 세대)

DeepSeek Coder는 코딩 특화 모델로, 최신 R1/V3로 대체되고 있습니다.

모델 크기 RAM 요구 특징
deepseek-coder-v2 16B 9.0 GB 코딩 특화 (이전 세대)

DeepSeek 사용 예제

# DeepSeek R1 8B 설치 (추론 모델, 추천)
ollama pull deepseek-r1:8b

# DeepSeek R1 32B 설치 (고성능 추론)
ollama pull deepseek-r1:32b

# DeepSeek V3 설치 (범용 고성능)
ollama pull deepseek-v3

# 추론 모델 실행
ollama run deepseek-r1:8b

>>> Implement a B-tree insertion algorithm in Python

class BTreeNode:
    def __init__(self, leaf=True):
        self.keys = []
        self.children = []
        self.leaf = leaf

class BTree:
    def __init__(self, t):
        self.root = BTreeNode()
        self.t = t  # Minimum degree

    def insert(self, key):
        root = self.root
        if len(root.keys) == (2 * self.t) - 1:
            # Root is full, split it
            new_root = BTreeNode(leaf=False)
            new_root.children.append(self.root)
            self._split_child(new_root, 0)
            self.root = new_root
        self._insert_non_full(self.root, key)

    def _split_child(self, parent, index):
        t = self.t
        full_child = parent.children[index]
        new_child = BTreeNode(leaf=full_child.leaf)

        # Split keys
        mid_key = full_child.keys[t - 1]
        new_child.keys = full_child.keys[t:(2 * t) - 1]
        full_child.keys = full_child.keys[0:t - 1]

        # Split children if not leaf
        if not full_child.leaf:
            new_child.children = full_child.children[t:2 * t]
            full_child.children = full_child.children[0:t]

        # Insert mid_key into parent
        parent.keys.insert(index, mid_key)
        parent.children.insert(index + 1, new_child)

    def _insert_non_full(self, node, key):
        i = len(node.keys) - 1

        if node.leaf:
            # Insert into leaf
            node.keys.append(None)
            while i >= 0 and key < node.keys[i]:
                node.keys[i + 1] = node.keys[i]
                i -= 1
            node.keys[i + 1] = key
        else:
            # Find child to insert into
            while i >= 0 and key < node.keys[i]:
                i -= 1
            i += 1

            if len(node.children[i].keys) == (2 * self.t) - 1:
                self._split_child(node, i)
                if key > node.keys[i]:
                    i += 1

            self._insert_non_full(node.children[i], key)

DeepSeek 벤치마크

벤치마크 DeepSeek R1 (distilled 32B) DeepSeek V3 Llama 4 Scout
HumanEval 85.2% 82.6% 78.4%
MBPP 78.5% 76.8% 72.1%
GSM8K (수학) 92.3% 88.5% 85.6%

추가로 볼 만한 최신 모델 패밀리

기존 Llama, Qwen, DeepSeek 외에도 최근 Ollama에서 자주 비교되는 모델들이 빠르게 늘고 있습니다. 특히 코딩 에이전트, 한국어 품질, RAG/도구 호출, 로컬 고성능 추론 관점에서는 아래 계열을 함께 보는 것이 실전적입니다.

gpt-oss

gpt-oss는 OpenAI의 오픈 웨이트 모델로, 로컬 실행 가능한 고성능 추론 계열입니다. Ollama는 MXFP4 양자화를 네이티브 지원하므로 gpt-oss:20b는 16GB급 메모리에서 시작할 수 있고, gpt-oss:120b는 80GB급 GPU 환경을 겨냥합니다. 함수 호출, 구조화 출력, 추론 강도 조절이 필요한 개발용 워크플로에 특히 잘 맞습니다.

모델 크기 실행 환경 강점 추천 상황
gpt-oss:20b 20.9B / 14GB 16GB급 메모리부터 낮은 지연, 도구 호출, 구조화 출력 로컬 코드 리뷰, 자동화, 개발용 에이전트
gpt-oss:120b 117B / 65GB 80GB급 GPU 높은 추론 품질, 대형 에이전트 워크로드 복잡한 리뷰, 고난도 추론, 서버용
# 로컬 고성능 추론 / 에이전트 작업
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

# 더 큰 워크스테이션 / 서버 환경
ollama pull gpt-oss:120b

GLM 계열

GLM 계열은 로컬 태그와 cloud 태그가 공존합니다. glm4는 9B/128K 로컬 모델이고, glm-4.7-flash는 30B-A3B/198K 경량 MoE이며, glm-5:cloud는 최신 Z.ai MoE 계열로 복잡한 코딩과 에이전트 작업을 겨냥합니다. 한중영 혼합 문서, UI 생성, 터미널 중심 코딩 워크플로우에서 후보로 넣어둘 가치가 큽니다.

모델 크기 유형 강점 추천 상황
glm4 9B / 5.5GB 로컬 128K, 다국어, 범용 작업 한중영 문서 작업, 일반 대화
glm-4.7-flash 30B-A3B / 19GB 로컬 198K, 경량 MoE, UI/코딩 품질 고급 코딩, 긴 컨텍스트, Vibe Coding
glm-5:cloud 최신 상위 계열 / 198K cloud 복잡한 추론, 코딩, 에이전트 작업 로컬 GPU가 부족한 최신 상위 모델 대안
⚠️ GLM 사용 시 주의

ollama run glm4ollama run glm-4.7-flash는 로컬 실행이지만, glm-5:cloud는 Ollama Cloud/Launch 기반 태그입니다. 오프라인이나 폐쇄망 환경에서는 glm4 또는 glm-4.7-flash 같은 로컬 태그를 우선 검토하세요.

실무에서 함께 비교할 모델

패밀리 대표 태그 강점 추천 상황
Devstral devstral-small-2 에이전트형 코딩, 코드베이스 탐색, 다중 파일 수정 CLI 기반 코드 에이전트, 리팩토링
EXAONE 3.5 exaone3.5:7.8b 한국어/영어 이중언어, 32K, 균형형 한국어 문서, 일반 업무, 지식 작업
EXAONE Deep exaone-deep:7.8b 수학, 코딩, 추론 강화 추론 중심 작업, 한국어 기술 설명
Granite 3.3 granite3.3:8b 128K, thinking, FIM, function calling RAG, 요약, 비즈니스 챗봇
Command R command-r7b RAG, 도구 사용, 23개 언어 사내 문서 검색, 요약, 질의응답
StarCoder2 starcoder2:7b 코드 전용, 가벼운 배포, 투명한 학습 데이터 로컬 IDE 보조, 빠른 코드 완성
🎯 짧은 후보군 추천
  • 한국어 우선: exaone3.5:7.8b, qwen3:8b, glm4
  • 코딩 에이전트: devstral-small-2, gpt-oss:20b, deepseek-r1:32b
  • 장문 문서 / RAG: command-r7b, granite3.3:8b, glm-4.7-flash

특수 목적 모델

Ollama는 특정 작업에 특화된 다양한 모델도 지원합니다.

멀티모달 (비전) 모델

모델 특징 사용 예
llama4:scout 17B 활성, 네이티브 멀티모달 이미지+텍스트, 10M 컨텍스트
llama4:maverick 17B 활성, 128 전문가 MoE 고성능 멀티모달
gemma3:4b 4B, 비전+텍스트, 128K 경량 멀티모달
gemma3:27b 27B, 비전+텍스트, 128K 고성능 멀티모달
phi4-multimodal 14B, 텍스트+이미지+음성 멀티 입력 처리
llava 7B, 이미지 + 텍스트 이미지 설명, OCR
llama3.2:11b-vision 11B, Llama 3.2 기반 프로덕션 비전 앱

비전 모델 사용 예제

# LLaVA 설치
ollama pull llava

# 이미지와 함께 프롬프트 전송
ollama run llava "What's in this image?" /path/to/image.jpg

# API를 통한 이미지 분석
curl http://localhost:11434/api/generate -d '{
  "model": "llava",
  "prompt": "이 이미지를 상세히 설명해줘",
  "images": ["'$(base64 < image.jpg)'"]
}'

임베딩 모델

벡터 검색, RAG (Retrieval-Augmented Generation)에 사용되는 임베딩 모델들입니다.

모델 차원 특징
nomic-embed-text 768 영어 특화, 빠름
mxbai-embed-large 1024 고품질 임베딩
all-minilm 384 경량, 빠른 속도

임베딩 생성 예제

# 임베딩 모델 설치
ollama pull nomic-embed-text

# Python으로 임베딩 생성
import requests

def get_embedding(text):
    response = requests.post(
        'http://localhost:11434/api/embeddings',
        json={
            'model': 'nomic-embed-text',
            'prompt': text
        }
    )
    return response.json()['embedding']

# 사용 예시
text = "Ollama is a tool for running LLMs locally"
embedding = get_embedding(text)
print(f"Embedding dimension: {len(embedding)}")  # 768

기타 특화 모델

모델 특화 분야 설명
gpt-oss-safeguard 안전 정책 판단 입력/출력 필터링, 정책 라벨링
mathstral 수학 추론 다단계 수학 문제, 계산 검토
aya-expanse 다국어 한국어 포함 폭넓은 다국어 응답
yi-coder 장문 코딩 128K 장문 코드 문맥 처리
starcoder2:instruct 코드 지시 수행 IDE 보조, 샘플 생성, 코드 설명

양자화 레벨 이해

양자화는 모델의 가중치를 낮은 정밀도로 변환하여 메모리 사용량과 추론 속도를 개선하는 기술입니다.

양자화 타입

타입 비트 품질 메모리 속도 사용 시기
fp16 16-bit ⭐⭐⭐⭐⭐ 100% ⭐⭐⭐ 최고 품질 필요
q8_0 8-bit ⭐⭐⭐⭐⭐ 50% ⭐⭐⭐⭐ 품질 중시
q6_K 6-bit ⭐⭐⭐⭐ 38% ⭐⭐⭐⭐ 균형잡힌 선택
q5_K_M 5-bit ⭐⭐⭐⭐ 31% ⭐⭐⭐⭐⭐ 일반 권장
q4_K_M 4-bit ⭐⭐⭐ 25% ⭐⭐⭐⭐⭐ 제한된 RAM
q4_0 4-bit ⭐⭐⭐ 25% ⭐⭐⭐⭐⭐ 속도 우선
q3_K_M 3-bit ⭐⭐ 19% ⭐⭐⭐⭐⭐ 극한 환경
q2_K 2-bit 12% ⭐⭐⭐⭐⭐ 실험적

양자화 비교 예제

# 다양한 양자화 버전 비교
# Llama 3.2 7B 기준

ollama pull llama3.2:7b-instruct-fp16    # ~14 GB
ollama pull llama3.2:7b-instruct-q8_0    # ~7.7 GB
ollama pull llama3.2:7b-instruct-q6_K    # ~5.9 GB
ollama pull llama3.2:7b-instruct-q5_K_M  # ~5.1 GB (권장)
ollama pull llama3.2:7b-instruct-q4_K_M  # ~4.4 GB
ollama pull llama3.2:7b-instruct-q4_0    # ~4.1 GB
ollama pull llama3.2:7b-instruct-q3_K_M  # ~3.2 GB
ollama pull llama3.2:7b-instruct-q2_K    # ~2.6 GB
양자화 레벨별 품질 vs 성능 메모리 사용량 (GB) 품질/성능 품질 속도 fp16 14GB q8_0 7.7GB q5_K_M (권장) 5.1GB q4_K_M 4.4GB q2_K 2.6GB

양자화 레벨별 품질과 속도의 균형 비교

🎯 양자화 선택 가이드
  • RAM 32GB+: q8_0 또는 fp16 (최고 품질)
  • RAM 16GB: q5_K_M 또는 q6_K (권장)
  • RAM 8GB: q4_K_M 또는 q4_0
  • RAM 4GB 이하: q3_K_M 또는 더 작은 모델 선택

참고: K 접미사는 K-quant 방식을 의미하며, 일반적으로 같은 비트 수에서 더 나은 품질을 제공합니다.

양자화 명명 규칙 상세

# 양자화 타입 해석
q4_K_M
│ │ └─ M = Medium (중간 품질)
│ └─── K = K-quant 방식
└───── 4 = 4-bit 양자화

# 변형
q4_K_S  # S = Small (가장 빠름, 낮은 품질)
q4_K_M  # M = Medium (균형)
q4_K_L  # L = Large (높은 품질, 느림)

# 레거시 형식
q4_0    # 구식 4-bit 양자화
q4_1    # 개선된 4-bit (bias 추가)

용도별 모델 선택 가이드

작업 유형별 추천

작업 유형 1순위 2순위 3순위
일반 대화 qwen3:8b exaone3.5:7.8b glm4
코드 생성 devstral-small-2 gpt-oss:20b deepseek-r1:32b
코드 리뷰 gpt-oss:120b devstral-2 deepseek-r1:32b
번역 qwen3:8b glm4 exaone3.5:7.8b
요약 command-r7b granite3.3:8b qwen3:8b
수학/추론 deepseek-r1:8b gpt-oss:20b exaone-deep:7.8b
RAG / 도구 사용 command-r7b granite3.3:8b gpt-oss:20b
한국어 문서 작업 exaone3.5:7.8b qwen3:8b glm4
이미지 분석 llama4:scout gemma3:27b phi4-multimodal
임베딩 nomic-embed-text mxbai-embed-large all-minilm

하드웨어별 추천

8GB RAM (통합 그래픽)

  • exaone3.5:2.4b - 1.6 GB
  • granite3.3:2b - 1.5 GB
  • qwen3:1.7b - 1.2 GB
  • llama3.2:3b - 2.0 GB

16GB RAM (일반 개발자 노트북)

  • gpt-oss:20b - 14 GB 다운로드, 16GB급 메모리부터
  • glm4 - 5.5 GB
  • exaone3.5:7.8b - 4.8 GB
  • granite3.3:8b - 4.9 GB

32GB RAM (고성능 워크스테이션)

  • devstral-small-2 - 24B, 32GB Mac / RTX 4090급
  • deepseek-r1:32b - 19 GB
  • qwen3:32b - 19 GB
  • glm-4.7-flash - 19 GB
  • gemma3:27b - 16 GB

64GB+ RAM + 고성능 GPU

  • gpt-oss:120b - 65 GB
  • deepseek-r1:70b - 40 GB
  • llama3.1:70b - 40 GB
  • mixtral:8x22b - 80 GB

언어별 추천

언어 최적 모델 설명
한국어 exaone3.5, qwen3, glm4 자연스러운 한국어 생성과 문서 작업
중국어 glm4 / glm-5:cloud, qwen3, deepseek-r1 중국어 특화 학습과 한중영 혼합 업무
일본어 qwen3, granite3.3, gemma3 다국어 지원 우수
영어 gpt-oss, devstral, command-r 코딩, RAG, 에이전트형 워크플로에 강함
유럽어 mistral, command-r, granite3.3 다국어 균형과 요약/RAG 업무

모델 태그 시스템

Ollama는 Docker와 유사한 태그 시스템을 사용합니다.

태그 예제

# 기본 형식
모델명:태그

# 태그 생략 시 :latest 자동 적용
ollama pull llama3.2
# = ollama pull llama3.2:latest

# 크기 지정
ollama pull llama3.2:7b
ollama pull llama3.2:3b
ollama pull llama3.2:1b

# 크기 + 튜닝 타입
ollama pull llama3.2:7b-instruct
ollama pull llama3.2:7b-text

# 크기 + 튜닝 + 양자화
ollama pull llama3.2:7b-instruct-q4_K_M
ollama pull llama3.2:7b-instruct-q8_0

# 특수 변형
ollama pull llama3.2:11b-vision
ollama pull codellama:7b-python

태그 구성 요소

요소 예시 설명
크기 7b, 13b, 70b 파라미터 수 (billion)
튜닝 instruct, chat, text 파인튜닝 타입
양자화 q4_0, q5_K_M, fp16 압축 레벨
특수 vision, python, coder 특화 기능

태그 관리

# 설치된 모델 확인 (태그 포함)
ollama list

NAME                           ID              SIZE      MODIFIED
llama3.2:latest                abc123          4.7 GB    2 days ago
llama3.2:7b-instruct-q4_0      def456          4.1 GB    1 week ago
mistral:7b-instruct-v0.2       ghi789          4.1 GB    3 days ago

# 특정 태그 삭제
ollama rm llama3.2:7b-instruct-q4_0

# 모델 정보 확인
ollama show llama3.2:7b-instruct-q4_0

# 모든 버전 확인 (원격 레지스트리)
ollama search llama3.2
⚠️ 태그 주의사항
  • :latest 태그는 시간에 따라 변경될 수 있음 (재현성 주의)
  • 프로덕션에서는 명확한 태그 사용 권장 (llama3.2:7b-instruct-q5_K_M)
  • 같은 모델의 다른 양자화 버전은 별도 다운로드 필요
  • 태그는 대소문자 구분 (7B7b)

모델 비교 매트릭스

종합 비교

모델 비교는 용도(대화/코딩/다국어), 하드웨어 제약, 지연 시간 목표를 기준으로 판단하는 것이 가장 안전합니다.

패밀리 대표 태그 강점 주의할 점
Qwen qwen3:8b 다국어, 범용성, 추론 라인업이 많아 태그 선택이 헷갈릴 수 있음
DeepSeek deepseek-r1:8b 추론, 코딩, 수학 응답이 다소 느려질 수 있음
gpt-oss gpt-oss:20b 에이전트형 코딩, 구조화 출력 메모리 요구와 최신 Ollama 버전 확인 필요
GLM glm4, glm-4.7-flash 한중영, 긴 컨텍스트, UI/코딩 상위 최신 태그 일부는 cloud 전용
EXAONE exaone3.5:7.8b 한국어 친화, 문서 작업 32K 컨텍스트로 장문 작업은 한계가 있음
Devstral devstral-small-2 코드베이스 탐색, 다중 파일 수정 텍스트 전용이며 일반 대화 모델로는 덜 적합
Command R / Granite command-r7b, granite3.3:8b RAG, 요약, 도구 사용 일반 대화 최고 품질만 놓고 보면 다른 축이 더 강할 수 있음

객관적 벤치마크 점수

벤치마크 점수는 모델/버전/환경에 따라 크게 달라질 수 있습니다. 동일 조건에서 직접 테스트해 확인하세요.

📊 벤치마크 설명
  • MMLU: 다양한 학술 주제에 대한 이해도 (0-100)
  • HumanEval: Python 코드 생성 능력 (0-100)
  • GSM8K: 초등 수학 문제 해결 능력 (0-100)
  • TruthfulQA: 사실 기반 답변 정확도 (0-100)

모델 선택 모범 사례

평가 프로세스

  1. 요구사항 정의
    • 주요 작업 유형 (대화, 코딩, 번역 등)
    • 응답 품질 vs 속도 우선순위
    • 다국어 지원 필요성
  2. 하드웨어 확인
    • 사용 가능한 RAM/VRAM 크기
    • GPU 유무 및 성능
    • 저장 공간 (모델당 수 GB)
  3. 후보 모델 선정
    • 3-5개 후보 모델 리스트업
    • 다양한 양자화 레벨 포함
  4. 실전 테스트
    • 실제 사용 케이스로 테스트
    • 응답 품질, 속도, 메모리 사용량 측정
  5. 최종 선택
    • 정량적 + 정성적 평가 결합
    • 프로덕션 환경 고려

간단한 테스트 스크립트

#!/bin/bash

# 여러 모델 성능 비교 스크립트

MODELS=("qwen3:8b" "deepseek-r1:8b" "gemma3:4b")
PROMPT="Write a Python function to find prime numbers"

for model in "${MODELS[@]}"; do
    echo "Testing $model..."

    # 시간 측정
    start=$(date +%s)

    # 응답 생성
    ollama run "$model" "$PROMPT" > "result_${model//:/_}.txt"

    end=$(date +%s)
    duration=$((end - start))

    echo "$model: ${duration}s" >> benchmark.txt

    # 메모리 사용량 확인
    ollama ps | grep "$model" >> benchmark.txt

    echo "---" >> benchmark.txt
done

echo "Benchmark complete. Check benchmark.txt for results."
💡 최종 권장사항

추천 전략: 경량 모델로 초기 검증을 하고, 품질이 부족할 때만 더 큰 모델로 단계적으로 확장하세요. GPU/VRAM과 지연 시간 요구를 기준으로 균형점을 찾는 것이 중요합니다.

핵심 정리

  • 범용 축은 여전히 Llama, Qwen, DeepSeek, Gemma이지만, 실무 후보군은 gpt-oss, GLM, EXAONE, Devstral까지 넓어졌습니다.
  • 로컬 태그와 :cloud 태그를 구분해야 하며, 하드웨어 예산과 오프라인 요구 사항이 모델 선택의 첫 기준입니다.
  • 코딩 에이전트, 한국어 문서, RAG처럼 작업 성격이 뚜렷할수록 범용 1개보다 특화 모델 2~3개를 A/B 테스트하는 편이 안전합니다.

실무 팁

  • 한국어 품질이 중요하면 exaone3.5, qwen3, glm4를 같은 프롬프트 세트로 비교하세요.
  • 코딩 에이전트는 devstral-small-2, gpt-oss:20b, deepseek-r1:32b를 기준군으로 두면 판단이 빠릅니다.
  • 재현성이 필요하면 :latest:cloud를 그대로 쓰지 말고, 구체적인 태그와 실행 조건을 문서화하세요.