Ollama 설치

모든 운영체제에서 Ollama를 설치하고 첫 번째 LLM 모델 실행하기

업데이트 안내: 모델/요금/버전/정책 등 시점에 민감한 정보는 변동될 수 있습니다. 최신 내용은 공식 문서를 확인하세요.
⚡ 빠른 설치

Linux/macOS (1분):

curl -fsSL https://ollama.com/install.sh | sh

Windows:

  1. ollama.com/download/windows에서 설치 파일 다운로드
  2. 실행 파일 더블클릭
  3. Next → Install → Finish

시스템 요구사항

최소 사양

항목 최소 요구사항 권장 사양 이상적 환경
RAM 8GB (3B 모델) 16GB (7B 모델) 32GB+ (13B+ 모델)
디스크 10GB 여유 공간 50GB 여유 공간 100GB+ SSD
CPU x86_64 또는 ARM64 4코어 이상 8코어+ (AVX2 지원)
GPU 선택사항 (CPU만으로도 동작) NVIDIA GPU (6GB+ VRAM) NVIDIA GPU (12GB+ VRAM)
OS macOS 11+, Windows 10+, Linux (kernel 4.x+)
💡 모델별 메모리 요구사항
  • 1-3B 모델 (Phi-3 Mini, Gemma 2B): 8GB RAM
  • 7B 모델 (Llama 3.2 7B, Mistral 7B): 16GB RAM
  • 13B 모델 (CodeLlama 13B): 24GB RAM
  • 34B+ 모델 (Mixtral 8x7B, Llama 70B): 48GB+ RAM 또는 GPU

: 양자화(Q4_0)를 사용하면 메모리 요구량이 절반으로 줄어듭니다.

GPU 지원

플랫폼 GPU 자동 감지 비고
macOS Apple Silicon (M1/M2/M3) ✅ 자동 Metal 가속 (매우 빠름)
Linux NVIDIA (CUDA 11.8+) ✅ 자동 드라이버 설치 필요
Linux AMD (ROCm 5.7+) ⚠️ 수동 설정 실험적 지원
Windows NVIDIA (CUDA 11.8+) ✅ 자동 WSL2 사용 권장
⚠️ GPU 없어도 괜찮습니다!

Ollama는 CPU만으로도 충분히 사용 가능합니다. GPU는 속도를 2-10배 향상시키지만, 3B-7B 모델은 CPU에서도 실용적인 속도로 동작합니다.

  • CPU (16GB RAM): Llama 3.2 7B → 10-20 tokens/sec
  • GPU (RTX 3060 12GB): Llama 3.2 7B → 50-100 tokens/sec

Linux 설치

자동 설치 (권장)

공식 설치 스크립트를 사용하면 1분 안에 설치 완료:

# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh

# 설치 확인
ollama --version
# ollama version 0.1.x

# 서비스 상태 확인
systemctl status ollama
# ● ollama.service - Ollama Service
#    Loaded: loaded
#    Active: active (running)

설치 스크립트는 다음 작업을 자동으로 수행합니다:

  • Ollama 바이너리 다운로드 (/usr/local/bin/ollama)
  • ollama 사용자 및 그룹 생성
  • systemd 서비스 파일 생성 (/etc/systemd/system/ollama.service)
  • 서비스 자동 시작 설정
  • GPU 드라이버 감지 (NVIDIA CUDA, AMD ROCm)

수동 설치

특정 버전을 설치하거나 커스텀 설정이 필요한 경우:

# 1. 바이너리 다운로드
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama

# 2. 사용자 및 그룹 생성
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

# 3. systemd 서비스 파일 생성
sudo tee /etc/systemd/system/ollama.service <<EOF
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=default.target
EOF

# 4. 서비스 시작
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

NVIDIA GPU 설정 (Linux)

CUDA를 설치하면 Ollama가 자동으로 GPU를 감지합니다:

# 1. NVIDIA 드라이버 설치 (Ubuntu/Debian)
sudo apt update
sudo apt install nvidia-driver-535

# 2. CUDA Toolkit 설치 (선택사항)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-3

# 3. 재부팅
sudo reboot

# 4. GPU 확인
nvidia-smi
# +-----------------------------------------------------------------------------+
# | NVIDIA-SMI 535.x       Driver Version: 535.x       CUDA Version: 12.2     |

# 5. Ollama에서 GPU 사용 확인
ollama run llama3.2
# GPU가 감지되면 자동으로 사용됩니다

배포판별 설치

Ubuntu / Debian

curl -fsSL https://ollama.com/install.sh | sh

Fedora / RHEL / CentOS

curl -fsSL https://ollama.com/install.sh | sh

Arch Linux

# AUR 사용
yay -S ollama

# 또는 공식 스크립트
curl -fsSL https://ollama.com/install.sh | sh

Alpine Linux

# 수동 설치 (공식 스크립트가 Alpine 미지원)
wget https://ollama.com/download/ollama-linux-amd64
sudo mv ollama-linux-amd64 /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama

macOS 설치

다운로드 및 설치

방법 1: 공식 앱 다운로드 (권장)

  1. ollama.com/download/mac 접속
  2. Ollama-darwin.zip 다운로드
  3. 압축 해제 후 Ollama.appApplications 폴더로 이동
  4. Ollama.app 실행 → 메뉴바에 라마 아이콘 표시됨

방법 2: 명령줄 설치

# 설치 스크립트 실행
curl -fsSL https://ollama.com/install.sh | sh

# 확인
ollama --version

방법 3: Homebrew

# Homebrew로 설치
brew install ollama

# 서비스 시작
brew services start ollama

Apple Silicon (M1/M2/M3) 최적화

Ollama는 Apple Silicon에서 Metal 가속을 자동으로 사용합니다. 별도 설정 없이 GPU 가속이 적용됩니다!

🚀 Apple Silicon 성능
  • M1 (8GB): Llama 3.2 3B → 40-60 tokens/sec
  • M1 Pro (16GB): Llama 3.2 7B → 30-50 tokens/sec
  • M2 Max (32GB): Llama 3.1 13B → 20-40 tokens/sec
  • M3 Max (64GB): Mixtral 8x7B → 15-30 tokens/sec

Metal 가속으로 NVIDIA GPU와 비슷하거나 더 빠른 속도!

# Metal 사용 확인
ollama run llama3.2 "Hello"
# 로그에 "Metal" 또는 "GPU"가 표시되면 가속 사용 중

# 메모리 압력 모니터링
while true; do
  vm_stat | grep "Pages active"
  sleep 1
done

메뉴바 앱 사용법

Ollama.app을 실행하면 메뉴바에 라마 아이콘이 표시됩니다:

  • 아이콘 클릭 → 모델 목록, 실행 중인 모델 확인
  • Run a model → 모델 선택하여 터미널에서 실행
  • Pull a model → 새 모델 다운로드
  • Quit Ollama → 서비스 종료

백그라운드 서비스는 로그인 시 자동 시작됩니다.

Windows 설치

설치 프로그램 다운로드

  1. ollama.com/download/windows 접속
  2. OllamaSetup.exe 다운로드
  3. 다운로드한 파일 더블클릭
  4. UAC 프롬프트 허용 (관리자 권한 필요)
  5. 설치 마법사 진행:
    • License Agreement 동의
    • 설치 경로 선택 (기본: C:\Users\[사용자]\AppData\Local\Programs\Ollama)
    • Install 클릭
  6. 설치 완료 → 시작 메뉴에 Ollama 추가됨

설치 확인

# PowerShell 또는 CMD 열기
ollama --version
# ollama version 0.1.x

# 서비스 상태 확인
Get-Service Ollama
# Status   Name               DisplayName
# ------   ----               -----------
# Running  Ollama             Ollama Service

WSL2 사용 (Linux 환경, 권장)

Windows에서 최상의 성능을 위해서는 WSL2 + Ubuntu를 사용하는 것을 권장합니다. 특히 NVIDIA GPU가 있는 경우 WSL2에서 CUDA를 사용할 수 있습니다.

1. WSL2 설치

# PowerShell (관리자 권한)
wsl --install
# 재부팅

# Ubuntu 설치 확인
wsl -l -v
#   NAME            STATE           VERSION
# * Ubuntu-22.04    Running         2

2. WSL2 내에서 Ollama 설치

# WSL2 (Ubuntu) 터미널 열기
wsl

# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh

# 확인
ollama --version

3. NVIDIA GPU 지원 (WSL2 + CUDA)

# 1. Windows에 NVIDIA 드라이버 설치 (호스트)
#    https://www.nvidia.com/Download/index.aspx

# 2. WSL2에서 CUDA 사용 가능 확인
nvidia-smi
# GPU 정보 표시되면 성공

# 3. Ollama에서 자동으로 GPU 사용
ollama run llama3.2
⚠️ Windows 네이티브 vs WSL2
항목 Windows 네이티브 WSL2
설치 난이도 쉬움 (GUI) 중간 (CLI)
성능 보통 빠름 (네이티브 Linux)
GPU 지원 실험적 (CUDA 설정 복잡) 완전 지원 (CUDA 자동)
권장 초보자, GPU 없음 개발자, GPU 있음

환경 변수 설정

명령 프롬프트 어디서나 ollama 명령어를 사용하려면:

  1. 시스템 속성고급환경 변수
  2. 시스템 변수에서 Path 선택 → 편집
  3. 새로 만들기C:\Users\[사용자]\AppData\Local\Programs\Ollama\bin 추가
  4. 확인 → CMD 재시작

설치 프로그램이 자동으로 Path를 추가하므로 보통 수동 설정은 불필요합니다.

Docker 설치 (선택사항)

Docker를 사용하면 격리된 환경에서 Ollama를 실행할 수 있습니다. 서버 배포, 테스트 환경에 적합합니다.

CPU 전용

# Ollama 컨테이너 실행
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# 모델 다운로드
docker exec -it ollama ollama pull llama3.2

# 대화 시작
docker exec -it ollama ollama run llama3.2

GPU 지원 (NVIDIA)

# NVIDIA Container Toolkit 설치 (Linux)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt update
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

# GPU로 Ollama 실행
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Docker Compose

# docker-compose.yml
version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

volumes:
  ollama:
# 실행
docker-compose up -d

# 모델 다운로드
docker-compose exec ollama ollama pull llama3.2

첫 번째 모델 실행

설치가 완료되었으면 첫 번째 모델을 다운로드하고 실행해봅시다!

모델 다운로드

# Llama 3.2 (3B, 가장 작고 빠름) 다운로드
ollama pull llama3.2

# 다운로드 진행 상황
pulling manifest
pulling 3b6e8c9b9a5d... 100% ▕████████████████▏ 2.0 GB
pulling 87d7562b0aa3... 100% ▕████████████████▏ 1.4 KB
pulling a47b0e3d78c0... 100% ▕████████████████▏  251 B
pulling af9f6c30658f... 100% ▕████████████████▏  487 B
verifying sha256 digest
writing manifest
removing any unused layers
success

다운로드 시간: 인터넷 속도에 따라 1-5분 소요 (2GB)

모델 실행

# 대화형 모드로 실행
ollama run llama3.2

# 프롬프트 표시
>>> 

이제 대화를 시작할 수 있습니다!

첫 번째 대화 예제

>>> 안녕! Python으로 피보나치 수열을 생성하는 함수를 만들어줘

Here's a simple implementation of a Fibonacci sequence generator in Python:

def fibonacci(n):
    """
    Generate Fibonacci sequence up to n terms
    """
    fib_sequence = []
    a, b = 0, 1

    for _ in range(n):
        fib_sequence.append(a)
        a, b = b, a + b

    return fib_sequence

# Example usage
print(fibonacci(10))
# Output: [0, 1, 1, 2, 3, 5, 8, 13, 21, 34]

>>> 재귀 함수로도 만들어줘

Sure! Here's a recursive version:

def fibonacci_recursive(n):
    if n <= 1:
        return n
    return fibonacci_recursive(n-1) + fibonacci_recursive(n-2)

# Generate first 10 Fibonacci numbers
result = [fibonacci_recursive(i) for i in range(10)]
print(result)

>>> /bye

유용한 CLI 명령어

# 설치된 모델 목록
ollama list
# NAME              ID              SIZE      MODIFIED
# llama3.2:latest   3b6e8c9b9a5d    2.0 GB    2 minutes ago

# 단일 프롬프트 실행 (대화형 아님)
ollama run llama3.2 "Explain quantum computing in one sentence"

# 모델 삭제
ollama rm llama3.2

# 실행 중인 모델 확인
ollama ps
# NAME              ID              SIZE      PROCESSOR    UNTIL
# llama3.2:latest   3b6e8c9b9a5d    2.0 GB    100% GPU     4 minutes from now

# 모델 정보 확인
ollama show llama3.2

고급 설정

환경 변수

Ollama는 환경 변수로 동작을 제어할 수 있습니다:

변수명 기본값 설명
OLLAMA_HOST 127.0.0.1:11434 서버 주소 (원격 접속 시 0.0.0.0)
OLLAMA_MODELS ~/.ollama/models 모델 저장 경로
OLLAMA_NUM_PARALLEL 1 동시 처리할 요청 수
OLLAMA_MAX_LOADED_MODELS 1 메모리에 로드할 모델 수
OLLAMA_KEEP_ALIVE 5m 모델 언로드 대기 시간
OLLAMA_DEBUG false 디버그 로그 활성화

Linux/macOS

# ~/.bashrc 또는 ~/.zshrc에 추가
export OLLAMA_HOST="0.0.0.0:11434"
export OLLAMA_MODELS="/data/ollama/models"
export OLLAMA_NUM_PARALLEL=4

# systemd 서비스 환경 변수 (Linux)
sudo systemctl edit ollama
# 다음 내용 추가:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

sudo systemctl restart ollama

Windows

# PowerShell (영구 설정)
[System.Environment]::SetEnvironmentVariable('OLLAMA_HOST', '0.0.0.0:11434', 'User')

# CMD (현재 세션만)
set OLLAMA_HOST=0.0.0.0:11434

원격 접속 설정

다른 컴퓨터에서 Ollama API에 접근하려면:

# 1. OLLAMA_HOST를 0.0.0.0으로 설정 (모든 인터페이스)
export OLLAMA_HOST="0.0.0.0:11434"

# 2. 방화벽 포트 열기 (Linux)
sudo ufw allow 11434/tcp

# 3. 재시작
sudo systemctl restart ollama

# 4. 다른 컴퓨터에서 접속
curl http://192.168.1.100:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hello"
}'
⚠️ 보안 주의

원격 접속을 활성화하면 네트워크에 있는 누구나 Ollama API에 접근할 수 있습니다. 프로덕션 환경에서는 인증, HTTPS, 방화벽 설정을 반드시 추가하세요.

모델 저장 위치 변경

디스크 공간이 부족하면 모델을 다른 드라이브에 저장:

# 1. 새 디렉토리 생성
sudo mkdir -p /mnt/storage/ollama

# 2. 권한 설정
sudo chown -R ollama:ollama /mnt/storage/ollama

# 3. 환경 변수 설정
sudo systemctl edit ollama
# 추가:
[Service]
Environment="OLLAMA_MODELS=/mnt/storage/ollama"

# 4. 재시작
sudo systemctl restart ollama

트러블슈팅

일반적인 문제

1. "ollama: command not found"

# 원인: PATH에 ollama가 없음
# 해결: 설치 확인
which ollama
# /usr/local/bin/ollama (있어야 함)

# 없으면 재설치
curl -fsSL https://ollama.com/install.sh | sh

2. "connection refused" (포트 11434 접속 불가)

# 원인: Ollama 서비스 미실행
# 해결: 서비스 시작
# Linux
sudo systemctl start ollama

# macOS
ollama serve &

# 확인
curl http://localhost:11434/api/tags

3. GPU 미감지 (NVIDIA)

# 확인: nvidia-smi 실행
nvidia-smi
# 에러 발생 시 → 드라이버 재설치

# CUDA 버전 확인
nvcc --version
# 11.8 이상 필요

# Ollama 재시작
sudo systemctl restart ollama

4. 메모리 부족 (OOM)

# 원인: 모델이 RAM보다 큼
# 해결: 더 작은 모델 사용
ollama pull phi3:mini   # 3B, 8GB RAM
ollama pull llama3.2    # 3B, 8GB RAM

# 또는 양자화 버전
ollama pull llama3.2:7b-q4_0  # 4GB

로그 확인

# Linux (systemd)
sudo journalctl -u ollama -f

# macOS
tail -f ~/.ollama/logs/server.log

# Docker
docker logs -f ollama

다음 단계

Ollama 설치를 완료했습니다! 이제 다양한 모델을 탐색해봅시다.

📚 계속 학습하기
  1. 모델 가이드 - Llama, Mistral, CodeLlama 비교 및 선택
  2. 기본 사용법 - CLI 명령어, API 사용, 고급 옵션
  3. 도구 연동 - Continue, Aider와 통합하여 코딩 시작

핵심 정리

  • Ollama 설치의 핵심 개념과 흐름을 정리합니다.
  • 시스템 요구사항를 단계별로 이해합니다.
  • 실전 적용 시 기준과 주의점을 확인합니다.

실무 팁

  • 입력/출력 예시를 고정해 재현성을 확보하세요.
  • Ollama 설치 범위를 작게 잡고 단계적으로 확장하세요.
  • 시스템 요구사항 조건을 문서화해 대응 시간을 줄이세요.