Ollama 설치

모든 운영체제에서 Ollama를 설치하고 첫 번째 LLM 모델 실행하기

업데이트 안내: 모델/요금/버전/정책 등 시점에 민감한 정보는 변동될 수 있습니다. 최신 내용은 공식 문서를 확인하세요.

⚡ 빠른 설치

Linux/macOS (1분):

curl -fsSL https://ollama.com/install.sh | sh

Windows:

ollama.com/download/windows에서 설치 파일 다운로드
실행 파일 더블클릭
Next → Install → Finish

시스템 요구사항

최소 사양

항목	최소 요구사항	권장 사양	이상적 환경
RAM	8GB (3B 모델)	16GB (7B 모델)	32GB+ (13B+ 모델)
디스크	10GB 여유 공간	50GB 여유 공간	100GB+ SSD
CPU	x86_64 또는 ARM64	4코어 이상	8코어+ (AVX2 지원)
GPU	선택사항 (CPU만으로도 동작)	NVIDIA GPU (6GB+ VRAM)	NVIDIA GPU (12GB+ VRAM)
OS	macOS 11+, Windows 10+, Linux (kernel 4.x+)

💡 모델별 메모리 요구사항

1-3B 모델 (Phi-3 Mini, Gemma 2B): 8GB RAM
7B 모델 (Llama 3.2 7B, Mistral 7B): 16GB RAM
13B 모델 (CodeLlama 13B): 24GB RAM
34B+ 모델 (Mixtral 8x7B, Llama 70B): 48GB+ RAM 또는 GPU

팁: 양자화(Q4_0)를 사용하면 메모리 요구량이 절반으로 줄어듭니다.

GPU 지원

플랫폼	GPU	자동 감지	비고
macOS	Apple Silicon (M1/M2/M3)	✅ 자동	Metal 가속 (매우 빠름)
Linux	NVIDIA (CUDA 11.8+)	✅ 자동	드라이버 설치 필요
Linux	AMD (ROCm 5.7+)	⚠️ 수동 설정	실험적 지원
Windows	NVIDIA (CUDA 11.8+)	✅ 자동	WSL2 사용 권장

⚠️ GPU 없어도 괜찮습니다!

Ollama는 CPU만으로도 충분히 사용 가능합니다. GPU는 속도를 2-10배 향상시키지만, 3B-7B 모델은 CPU에서도 실용적인 속도로 동작합니다.

CPU (16GB RAM): Llama 3.2 7B → 10-20 tokens/sec
GPU (RTX 3060 12GB): Llama 3.2 7B → 50-100 tokens/sec

Linux 설치

자동 설치 (권장)

공식 설치 스크립트를 사용하면 1분 안에 설치 완료:

# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh

# 설치 확인
ollama --version
# ollama version 0.1.x

# 서비스 상태 확인
systemctl status ollama
# ● ollama.service - Ollama Service
#    Loaded: loaded
#    Active: active (running)

설치 스크립트는 다음 작업을 자동으로 수행합니다:

Ollama 바이너리 다운로드 (/usr/local/bin/ollama)
ollama 사용자 및 그룹 생성
systemd 서비스 파일 생성 (/etc/systemd/system/ollama.service)
서비스 자동 시작 설정
GPU 드라이버 감지 (NVIDIA CUDA, AMD ROCm)

수동 설치

특정 버전을 설치하거나 커스텀 설정이 필요한 경우:

# 1. 바이너리 다운로드
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama

# 2. 사용자 및 그룹 생성
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

# 3. systemd 서비스 파일 생성
sudo tee /etc/systemd/system/ollama.service <<EOF
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=default.target
EOF

# 4. 서비스 시작
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

NVIDIA GPU 설정 (Linux)

CUDA를 설치하면 Ollama가 자동으로 GPU를 감지합니다:

# 1. NVIDIA 드라이버 설치 (Ubuntu/Debian)
sudo apt update
sudo apt install nvidia-driver-535

# 2. CUDA Toolkit 설치 (선택사항)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-3

# 3. 재부팅
sudo reboot

# 4. GPU 확인
nvidia-smi
# +-----------------------------------------------------------------------------+
# | NVIDIA-SMI 535.x       Driver Version: 535.x       CUDA Version: 12.2     |

# 5. Ollama에서 GPU 사용 확인
ollama run llama3.2
# GPU가 감지되면 자동으로 사용됩니다

배포판별 설치

Ubuntu / Debian

curl -fsSL https://ollama.com/install.sh | sh

Fedora / RHEL / CentOS

curl -fsSL https://ollama.com/install.sh | sh

Arch Linux

# AUR 사용
yay -S ollama

# 또는 공식 스크립트
curl -fsSL https://ollama.com/install.sh | sh

Alpine Linux

# 수동 설치 (공식 스크립트가 Alpine 미지원)
wget https://ollama.com/download/ollama-linux-amd64
sudo mv ollama-linux-amd64 /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama

macOS 설치

다운로드 및 설치

방법 1: 공식 앱 다운로드 (권장)

ollama.com/download/mac 접속
Ollama-darwin.zip 다운로드
압축 해제 후 Ollama.app를 Applications 폴더로 이동
Ollama.app 실행 → 메뉴바에 라마 아이콘 표시됨

방법 2: 명령줄 설치

# 설치 스크립트 실행
curl -fsSL https://ollama.com/install.sh | sh

# 확인
ollama --version

방법 3: Homebrew

# Homebrew로 설치
brew install ollama

# 서비스 시작
brew services start ollama

Apple Silicon (M1/M2/M3) 최적화

Ollama는 Apple Silicon에서 Metal 가속을 자동으로 사용합니다. 별도 설정 없이 GPU 가속이 적용됩니다!

🚀 Apple Silicon 성능

M1 (8GB): Llama 3.2 3B → 40-60 tokens/sec
M1 Pro (16GB): Llama 3.2 7B → 30-50 tokens/sec
M2 Max (32GB): Llama 3.1 13B → 20-40 tokens/sec
M3 Max (64GB): Mixtral 8x7B → 15-30 tokens/sec

Metal 가속으로 NVIDIA GPU와 비슷하거나 더 빠른 속도!

# Metal 사용 확인
ollama run llama3.2 "Hello"
# 로그에 "Metal" 또는 "GPU"가 표시되면 가속 사용 중

# 메모리 압력 모니터링
while true; do
  vm_stat | grep "Pages active"
  sleep 1
done

Ollama.app을 실행하면 메뉴바에 라마 아이콘이 표시됩니다:

아이콘 클릭 → 모델 목록, 실행 중인 모델 확인
Run a model → 모델 선택하여 터미널에서 실행
Pull a model → 새 모델 다운로드
Quit Ollama → 서비스 종료

백그라운드 서비스는 로그인 시 자동 시작됩니다.

Windows 설치

설치 프로그램 다운로드

ollama.com/download/windows 접속
OllamaSetup.exe 다운로드
다운로드한 파일 더블클릭
UAC 프롬프트 허용 (관리자 권한 필요)
설치 마법사 진행:
- License Agreement 동의
- 설치 경로 선택 (기본: C:\Users\[사용자]\AppData\Local\Programs\Ollama)
- Install 클릭
설치 완료 → 시작 메뉴에 Ollama 추가됨

설치 확인

# PowerShell 또는 CMD 열기
ollama --version
# ollama version 0.1.x

# 서비스 상태 확인
Get-Service Ollama
# Status   Name               DisplayName
# ------   ----               -----------
# Running  Ollama             Ollama Service

WSL2 사용 (Linux 환경, 권장)

Windows에서 최상의 성능을 위해서는 WSL2 + Ubuntu를 사용하는 것을 권장합니다. 특히 NVIDIA GPU가 있는 경우 WSL2에서 CUDA를 사용할 수 있습니다.

1. WSL2 설치

# PowerShell (관리자 권한)
wsl --install
# 재부팅

# Ubuntu 설치 확인
wsl -l -v
#   NAME            STATE           VERSION
# * Ubuntu-22.04    Running         2

2. WSL2 내에서 Ollama 설치

# WSL2 (Ubuntu) 터미널 열기
wsl

# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh

# 확인
ollama --version

3. NVIDIA GPU 지원 (WSL2 + CUDA)

# 1. Windows에 NVIDIA 드라이버 설치 (호스트)
#    https://www.nvidia.com/Download/index.aspx

# 2. WSL2에서 CUDA 사용 가능 확인
nvidia-smi
# GPU 정보 표시되면 성공

# 3. Ollama에서 자동으로 GPU 사용
ollama run llama3.2

⚠️ Windows 네이티브 vs WSL2

항목	Windows 네이티브	WSL2
설치 난이도	쉬움 (GUI)	중간 (CLI)
성능	보통	빠름 (네이티브 Linux)
GPU 지원	실험적 (CUDA 설정 복잡)	완전 지원 (CUDA 자동)
권장	초보자, GPU 없음	개발자, GPU 있음

환경 변수 설정

명령 프롬프트 어디서나 ollama 명령어를 사용하려면:

시스템 속성 → 고급 → 환경 변수
시스템 변수에서 Path 선택 → 편집
새로 만들기 → C:\Users\[사용자]\AppData\Local\Programs\Ollama\bin 추가
확인 → CMD 재시작

설치 프로그램이 자동으로 Path를 추가하므로 보통 수동 설정은 불필요합니다.

Docker 설치 (선택사항)

Docker를 사용하면 격리된 환경에서 Ollama를 실행할 수 있습니다. 서버 배포, 테스트 환경에 적합합니다.

CPU 전용

# Ollama 컨테이너 실행
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# 모델 다운로드
docker exec -it ollama ollama pull llama3.2

# 대화 시작
docker exec -it ollama ollama run llama3.2

GPU 지원 (NVIDIA)

# NVIDIA Container Toolkit 설치 (Linux)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt update
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

# GPU로 Ollama 실행
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Docker Compose

# docker-compose.yml
version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

volumes:
  ollama:

# 실행
docker-compose up -d

# 모델 다운로드
docker-compose exec ollama ollama pull llama3.2

첫 번째 모델 실행

설치가 완료되었으면 첫 번째 모델을 다운로드하고 실행해봅시다!

모델 다운로드

# Llama 3.2 (3B, 가장 작고 빠름) 다운로드
ollama pull llama3.2

# 다운로드 진행 상황
pulling manifest
pulling 3b6e8c9b9a5d... 100% ▕████████████████▏ 2.0 GB
pulling 87d7562b0aa3... 100% ▕████████████████▏ 1.4 KB
pulling a47b0e3d78c0... 100% ▕████████████████▏  251 B
pulling af9f6c30658f... 100% ▕████████████████▏  487 B
verifying sha256 digest
writing manifest
removing any unused layers
success

다운로드 시간: 인터넷 속도에 따라 1-5분 소요 (2GB)

모델 실행

# 대화형 모드로 실행
ollama run llama3.2

# 프롬프트 표시
>>>

이제 대화를 시작할 수 있습니다!

첫 번째 대화 예제

>>> 안녕! Python으로 피보나치 수열을 생성하는 함수를 만들어줘

Here's a simple implementation of a Fibonacci sequence generator in Python:

def fibonacci(n):
    """
    Generate Fibonacci sequence up to n terms
    """
    fib_sequence = []
    a, b = 0, 1

    for _ in range(n):
        fib_sequence.append(a)
        a, b = b, a + b

    return fib_sequence

# Example usage
print(fibonacci(10))
# Output: [0, 1, 1, 2, 3, 5, 8, 13, 21, 34]

>>> 재귀 함수로도 만들어줘

Sure! Here's a recursive version:

def fibonacci_recursive(n):
    if n <= 1:
        return n
    return fibonacci_recursive(n-1) + fibonacci_recursive(n-2)

# Generate first 10 Fibonacci numbers
result = [fibonacci_recursive(i) for i in range(10)]
print(result)

>>> /bye

유용한 CLI 명령어

# 설치된 모델 목록
ollama list
# NAME              ID              SIZE      MODIFIED
# llama3.2:latest   3b6e8c9b9a5d    2.0 GB    2 minutes ago

# 단일 프롬프트 실행 (대화형 아님)
ollama run llama3.2 "Explain quantum computing in one sentence"

# 모델 삭제
ollama rm llama3.2

# 실행 중인 모델 확인
ollama ps
# NAME              ID              SIZE      PROCESSOR    UNTIL
# llama3.2:latest   3b6e8c9b9a5d    2.0 GB    100% GPU     4 minutes from now

# 모델 정보 확인
ollama show llama3.2

고급 설정

환경 변수

Ollama는 환경 변수로 동작을 제어할 수 있습니다:

변수명	기본값	설명
`OLLAMA_HOST`	`127.0.0.1:11434`	서버 주소 (원격 접속 시 0.0.0.0)
`OLLAMA_MODELS`	`~/.ollama/models`	모델 저장 경로
`OLLAMA_NUM_PARALLEL`	`1`	동시 처리할 요청 수
`OLLAMA_MAX_LOADED_MODELS`	`1`	메모리에 로드할 모델 수
`OLLAMA_KEEP_ALIVE`	`5m`	모델 언로드 대기 시간
`OLLAMA_DEBUG`	`false`	디버그 로그 활성화

Linux/macOS

# ~/.bashrc 또는 ~/.zshrc에 추가
export OLLAMA_HOST="0.0.0.0:11434"
export OLLAMA_MODELS="/data/ollama/models"
export OLLAMA_NUM_PARALLEL=4

# systemd 서비스 환경 변수 (Linux)
sudo systemctl edit ollama
# 다음 내용 추가:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

sudo systemctl restart ollama

Windows

# PowerShell (영구 설정)
[System.Environment]::SetEnvironmentVariable('OLLAMA_HOST', '0.0.0.0:11434', 'User')

# CMD (현재 세션만)
set OLLAMA_HOST=0.0.0.0:11434

원격 접속 설정

다른 컴퓨터에서 Ollama API에 접근하려면:

# 1. OLLAMA_HOST를 0.0.0.0으로 설정 (모든 인터페이스)
export OLLAMA_HOST="0.0.0.0:11434"

# 2. 방화벽 포트 열기 (Linux)
sudo ufw allow 11434/tcp

# 3. 재시작
sudo systemctl restart ollama

# 4. 다른 컴퓨터에서 접속
curl http://192.168.1.100:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hello"
}'

⚠️ 보안 주의

원격 접속을 활성화하면 네트워크에 있는 누구나 Ollama API에 접근할 수 있습니다. 프로덕션 환경에서는 인증, HTTPS, 방화벽 설정을 반드시 추가하세요.

모델 저장 위치 변경

디스크 공간이 부족하면 모델을 다른 드라이브에 저장:

# 1. 새 디렉토리 생성
sudo mkdir -p /mnt/storage/ollama

# 2. 권한 설정
sudo chown -R ollama:ollama /mnt/storage/ollama

# 3. 환경 변수 설정
sudo systemctl edit ollama
# 추가:
[Service]
Environment="OLLAMA_MODELS=/mnt/storage/ollama"

# 4. 재시작
sudo systemctl restart ollama

트러블슈팅

일반적인 문제

1. "ollama: command not found"

# 원인: PATH에 ollama가 없음
# 해결: 설치 확인
which ollama
# /usr/local/bin/ollama (있어야 함)

# 없으면 재설치
curl -fsSL https://ollama.com/install.sh | sh

2. "connection refused" (포트 11434 접속 불가)

# 원인: Ollama 서비스 미실행
# 해결: 서비스 시작
# Linux
sudo systemctl start ollama

# macOS
ollama serve &

# 확인
curl http://localhost:11434/api/tags

3. GPU 미감지 (NVIDIA)

# 확인: nvidia-smi 실행
nvidia-smi
# 에러 발생 시 → 드라이버 재설치

# CUDA 버전 확인
nvcc --version
# 11.8 이상 필요

# Ollama 재시작
sudo systemctl restart ollama

4. 메모리 부족 (OOM)

# 원인: 모델이 RAM보다 큼
# 해결: 더 작은 모델 사용
ollama pull phi3:mini   # 3B, 8GB RAM
ollama pull llama3.2    # 3B, 8GB RAM

# 또는 양자화 버전
ollama pull llama3.2:7b-q4_0  # 4GB

로그 확인

# Linux (systemd)
sudo journalctl -u ollama -f

# macOS
tail -f ~/.ollama/logs/server.log

# Docker
docker logs -f ollama

다음 단계

Ollama 설치를 완료했습니다! 이제 다양한 모델을 탐색해봅시다.

📚 계속 학습하기

모델 가이드 - Llama, Mistral, CodeLlama 비교 및 선택
기본 사용법 - CLI 명령어, API 사용, 고급 옵션
도구 연동 - Continue, Aider와 통합하여 코딩 시작

핵심 정리

Ollama 설치의 핵심 개념과 흐름을 정리합니다.
시스템 요구사항를 단계별로 이해합니다.
실전 적용 시 기준과 주의점을 확인합니다.

실무 팁

입력/출력 예시를 고정해 재현성을 확보하세요.
Ollama 설치 범위를 작게 잡고 단계적으로 확장하세요.
시스템 요구사항 조건을 문서화해 대응 시간을 줄이세요.