Ollama 설치
모든 운영체제에서 Ollama를 설치하고 첫 번째 LLM 모델 실행하기
Linux/macOS (1분):
curl -fsSL https://ollama.com/install.sh | sh
Windows:
- ollama.com/download/windows에서 설치 파일 다운로드
- 실행 파일 더블클릭
- Next → Install → Finish
시스템 요구사항
최소 사양
| 항목 | 최소 요구사항 | 권장 사양 | 이상적 환경 |
|---|---|---|---|
| RAM | 8GB (3B 모델) | 16GB (7B 모델) | 32GB+ (13B+ 모델) |
| 디스크 | 10GB 여유 공간 | 50GB 여유 공간 | 100GB+ SSD |
| CPU | x86_64 또는 ARM64 | 4코어 이상 | 8코어+ (AVX2 지원) |
| GPU | 선택사항 (CPU만으로도 동작) | NVIDIA GPU (6GB+ VRAM) | NVIDIA GPU (12GB+ VRAM) |
| OS | macOS 11+, Windows 10+, Linux (kernel 4.x+) | ||
- 1-3B 모델 (Phi-3 Mini, Gemma 2B): 8GB RAM
- 7B 모델 (Llama 3.2 7B, Mistral 7B): 16GB RAM
- 13B 모델 (CodeLlama 13B): 24GB RAM
- 34B+ 모델 (Mixtral 8x7B, Llama 70B): 48GB+ RAM 또는 GPU
팁: 양자화(Q4_0)를 사용하면 메모리 요구량이 절반으로 줄어듭니다.
GPU 지원
| 플랫폼 | GPU | 자동 감지 | 비고 |
|---|---|---|---|
| macOS | Apple Silicon (M1/M2/M3) | ✅ 자동 | Metal 가속 (매우 빠름) |
| Linux | NVIDIA (CUDA 11.8+) | ✅ 자동 | 드라이버 설치 필요 |
| Linux | AMD (ROCm 5.7+) | ⚠️ 수동 설정 | 실험적 지원 |
| Windows | NVIDIA (CUDA 11.8+) | ✅ 자동 | WSL2 사용 권장 |
Ollama는 CPU만으로도 충분히 사용 가능합니다. GPU는 속도를 2-10배 향상시키지만, 3B-7B 모델은 CPU에서도 실용적인 속도로 동작합니다.
- CPU (16GB RAM): Llama 3.2 7B → 10-20 tokens/sec
- GPU (RTX 3060 12GB): Llama 3.2 7B → 50-100 tokens/sec
Linux 설치
자동 설치 (권장)
공식 설치 스크립트를 사용하면 1분 안에 설치 완료:
# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh
# 설치 확인
ollama --version
# ollama version 0.1.x
# 서비스 상태 확인
systemctl status ollama
# ● ollama.service - Ollama Service
# Loaded: loaded
# Active: active (running)
설치 스크립트는 다음 작업을 자동으로 수행합니다:
- Ollama 바이너리 다운로드 (
/usr/local/bin/ollama) ollama사용자 및 그룹 생성- systemd 서비스 파일 생성 (
/etc/systemd/system/ollama.service) - 서비스 자동 시작 설정
- GPU 드라이버 감지 (NVIDIA CUDA, AMD ROCm)
수동 설치
특정 버전을 설치하거나 커스텀 설정이 필요한 경우:
# 1. 바이너리 다운로드
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama
# 2. 사용자 및 그룹 생성
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
# 3. systemd 서비스 파일 생성
sudo tee /etc/systemd/system/ollama.service <<EOF
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
[Install]
WantedBy=default.target
EOF
# 4. 서비스 시작
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
NVIDIA GPU 설정 (Linux)
CUDA를 설치하면 Ollama가 자동으로 GPU를 감지합니다:
# 1. NVIDIA 드라이버 설치 (Ubuntu/Debian)
sudo apt update
sudo apt install nvidia-driver-535
# 2. CUDA Toolkit 설치 (선택사항)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-3
# 3. 재부팅
sudo reboot
# 4. GPU 확인
nvidia-smi
# +-----------------------------------------------------------------------------+
# | NVIDIA-SMI 535.x Driver Version: 535.x CUDA Version: 12.2 |
# 5. Ollama에서 GPU 사용 확인
ollama run llama3.2
# GPU가 감지되면 자동으로 사용됩니다
배포판별 설치
Ubuntu / Debian
curl -fsSL https://ollama.com/install.sh | sh
Fedora / RHEL / CentOS
curl -fsSL https://ollama.com/install.sh | sh
Arch Linux
# AUR 사용
yay -S ollama
# 또는 공식 스크립트
curl -fsSL https://ollama.com/install.sh | sh
Alpine Linux
# 수동 설치 (공식 스크립트가 Alpine 미지원)
wget https://ollama.com/download/ollama-linux-amd64
sudo mv ollama-linux-amd64 /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama
macOS 설치
다운로드 및 설치
방법 1: 공식 앱 다운로드 (권장)
- ollama.com/download/mac 접속
Ollama-darwin.zip다운로드- 압축 해제 후
Ollama.app를Applications폴더로 이동 Ollama.app실행 → 메뉴바에 라마 아이콘 표시됨
방법 2: 명령줄 설치
# 설치 스크립트 실행
curl -fsSL https://ollama.com/install.sh | sh
# 확인
ollama --version
방법 3: Homebrew
# Homebrew로 설치
brew install ollama
# 서비스 시작
brew services start ollama
Apple Silicon (M1/M2/M3) 최적화
Ollama는 Apple Silicon에서 Metal 가속을 자동으로 사용합니다. 별도 설정 없이 GPU 가속이 적용됩니다!
- M1 (8GB): Llama 3.2 3B → 40-60 tokens/sec
- M1 Pro (16GB): Llama 3.2 7B → 30-50 tokens/sec
- M2 Max (32GB): Llama 3.1 13B → 20-40 tokens/sec
- M3 Max (64GB): Mixtral 8x7B → 15-30 tokens/sec
Metal 가속으로 NVIDIA GPU와 비슷하거나 더 빠른 속도!
# Metal 사용 확인
ollama run llama3.2 "Hello"
# 로그에 "Metal" 또는 "GPU"가 표시되면 가속 사용 중
# 메모리 압력 모니터링
while true; do
vm_stat | grep "Pages active"
sleep 1
done
메뉴바 앱 사용법
Ollama.app을 실행하면 메뉴바에 라마 아이콘이 표시됩니다:
- 아이콘 클릭 → 모델 목록, 실행 중인 모델 확인
- Run a model → 모델 선택하여 터미널에서 실행
- Pull a model → 새 모델 다운로드
- Quit Ollama → 서비스 종료
백그라운드 서비스는 로그인 시 자동 시작됩니다.
Windows 설치
설치 프로그램 다운로드
- ollama.com/download/windows 접속
OllamaSetup.exe다운로드- 다운로드한 파일 더블클릭
- UAC 프롬프트 허용 (관리자 권한 필요)
- 설치 마법사 진행:
- License Agreement 동의
- 설치 경로 선택 (기본:
C:\Users\[사용자]\AppData\Local\Programs\Ollama) - Install 클릭
- 설치 완료 → 시작 메뉴에 Ollama 추가됨
설치 확인
# PowerShell 또는 CMD 열기
ollama --version
# ollama version 0.1.x
# 서비스 상태 확인
Get-Service Ollama
# Status Name DisplayName
# ------ ---- -----------
# Running Ollama Ollama Service
WSL2 사용 (Linux 환경, 권장)
Windows에서 최상의 성능을 위해서는 WSL2 + Ubuntu를 사용하는 것을 권장합니다. 특히 NVIDIA GPU가 있는 경우 WSL2에서 CUDA를 사용할 수 있습니다.
1. WSL2 설치
# PowerShell (관리자 권한)
wsl --install
# 재부팅
# Ubuntu 설치 확인
wsl -l -v
# NAME STATE VERSION
# * Ubuntu-22.04 Running 2
2. WSL2 내에서 Ollama 설치
# WSL2 (Ubuntu) 터미널 열기
wsl
# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh
# 확인
ollama --version
3. NVIDIA GPU 지원 (WSL2 + CUDA)
# 1. Windows에 NVIDIA 드라이버 설치 (호스트)
# https://www.nvidia.com/Download/index.aspx
# 2. WSL2에서 CUDA 사용 가능 확인
nvidia-smi
# GPU 정보 표시되면 성공
# 3. Ollama에서 자동으로 GPU 사용
ollama run llama3.2
| 항목 | Windows 네이티브 | WSL2 |
|---|---|---|
| 설치 난이도 | 쉬움 (GUI) | 중간 (CLI) |
| 성능 | 보통 | 빠름 (네이티브 Linux) |
| GPU 지원 | 실험적 (CUDA 설정 복잡) | 완전 지원 (CUDA 자동) |
| 권장 | 초보자, GPU 없음 | 개발자, GPU 있음 |
환경 변수 설정
명령 프롬프트 어디서나 ollama 명령어를 사용하려면:
- 시스템 속성 → 고급 → 환경 변수
- 시스템 변수에서
Path선택 → 편집 - 새로 만들기 →
C:\Users\[사용자]\AppData\Local\Programs\Ollama\bin추가 - 확인 → CMD 재시작
설치 프로그램이 자동으로 Path를 추가하므로 보통 수동 설정은 불필요합니다.
Docker 설치 (선택사항)
Docker를 사용하면 격리된 환경에서 Ollama를 실행할 수 있습니다. 서버 배포, 테스트 환경에 적합합니다.
CPU 전용
# Ollama 컨테이너 실행
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# 모델 다운로드
docker exec -it ollama ollama pull llama3.2
# 대화 시작
docker exec -it ollama ollama run llama3.2
GPU 지원 (NVIDIA)
# NVIDIA Container Toolkit 설치 (Linux)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt update
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker
# GPU로 Ollama 실행
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Docker Compose
# docker-compose.yml
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- ollama:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 1
capabilities: [gpu]
volumes:
ollama:
# 실행
docker-compose up -d
# 모델 다운로드
docker-compose exec ollama ollama pull llama3.2
첫 번째 모델 실행
설치가 완료되었으면 첫 번째 모델을 다운로드하고 실행해봅시다!
모델 다운로드
# Llama 3.2 (3B, 가장 작고 빠름) 다운로드
ollama pull llama3.2
# 다운로드 진행 상황
pulling manifest
pulling 3b6e8c9b9a5d... 100% ▕████████████████▏ 2.0 GB
pulling 87d7562b0aa3... 100% ▕████████████████▏ 1.4 KB
pulling a47b0e3d78c0... 100% ▕████████████████▏ 251 B
pulling af9f6c30658f... 100% ▕████████████████▏ 487 B
verifying sha256 digest
writing manifest
removing any unused layers
success
다운로드 시간: 인터넷 속도에 따라 1-5분 소요 (2GB)
모델 실행
# 대화형 모드로 실행
ollama run llama3.2
# 프롬프트 표시
>>>
이제 대화를 시작할 수 있습니다!
첫 번째 대화 예제
>>> 안녕! Python으로 피보나치 수열을 생성하는 함수를 만들어줘
Here's a simple implementation of a Fibonacci sequence generator in Python:
def fibonacci(n):
"""
Generate Fibonacci sequence up to n terms
"""
fib_sequence = []
a, b = 0, 1
for _ in range(n):
fib_sequence.append(a)
a, b = b, a + b
return fib_sequence
# Example usage
print(fibonacci(10))
# Output: [0, 1, 1, 2, 3, 5, 8, 13, 21, 34]
>>> 재귀 함수로도 만들어줘
Sure! Here's a recursive version:
def fibonacci_recursive(n):
if n <= 1:
return n
return fibonacci_recursive(n-1) + fibonacci_recursive(n-2)
# Generate first 10 Fibonacci numbers
result = [fibonacci_recursive(i) for i in range(10)]
print(result)
>>> /bye
유용한 CLI 명령어
# 설치된 모델 목록
ollama list
# NAME ID SIZE MODIFIED
# llama3.2:latest 3b6e8c9b9a5d 2.0 GB 2 minutes ago
# 단일 프롬프트 실행 (대화형 아님)
ollama run llama3.2 "Explain quantum computing in one sentence"
# 모델 삭제
ollama rm llama3.2
# 실행 중인 모델 확인
ollama ps
# NAME ID SIZE PROCESSOR UNTIL
# llama3.2:latest 3b6e8c9b9a5d 2.0 GB 100% GPU 4 minutes from now
# 모델 정보 확인
ollama show llama3.2
고급 설정
환경 변수
Ollama는 환경 변수로 동작을 제어할 수 있습니다:
| 변수명 | 기본값 | 설명 |
|---|---|---|
OLLAMA_HOST |
127.0.0.1:11434 |
서버 주소 (원격 접속 시 0.0.0.0) |
OLLAMA_MODELS |
~/.ollama/models |
모델 저장 경로 |
OLLAMA_NUM_PARALLEL |
1 |
동시 처리할 요청 수 |
OLLAMA_MAX_LOADED_MODELS |
1 |
메모리에 로드할 모델 수 |
OLLAMA_KEEP_ALIVE |
5m |
모델 언로드 대기 시간 |
OLLAMA_DEBUG |
false |
디버그 로그 활성화 |
Linux/macOS
# ~/.bashrc 또는 ~/.zshrc에 추가
export OLLAMA_HOST="0.0.0.0:11434"
export OLLAMA_MODELS="/data/ollama/models"
export OLLAMA_NUM_PARALLEL=4
# systemd 서비스 환경 변수 (Linux)
sudo systemctl edit ollama
# 다음 내용 추가:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
sudo systemctl restart ollama
Windows
# PowerShell (영구 설정)
[System.Environment]::SetEnvironmentVariable('OLLAMA_HOST', '0.0.0.0:11434', 'User')
# CMD (현재 세션만)
set OLLAMA_HOST=0.0.0.0:11434
원격 접속 설정
다른 컴퓨터에서 Ollama API에 접근하려면:
# 1. OLLAMA_HOST를 0.0.0.0으로 설정 (모든 인터페이스)
export OLLAMA_HOST="0.0.0.0:11434"
# 2. 방화벽 포트 열기 (Linux)
sudo ufw allow 11434/tcp
# 3. 재시작
sudo systemctl restart ollama
# 4. 다른 컴퓨터에서 접속
curl http://192.168.1.100:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Hello"
}'
원격 접속을 활성화하면 네트워크에 있는 누구나 Ollama API에 접근할 수 있습니다. 프로덕션 환경에서는 인증, HTTPS, 방화벽 설정을 반드시 추가하세요.
모델 저장 위치 변경
디스크 공간이 부족하면 모델을 다른 드라이브에 저장:
# 1. 새 디렉토리 생성
sudo mkdir -p /mnt/storage/ollama
# 2. 권한 설정
sudo chown -R ollama:ollama /mnt/storage/ollama
# 3. 환경 변수 설정
sudo systemctl edit ollama
# 추가:
[Service]
Environment="OLLAMA_MODELS=/mnt/storage/ollama"
# 4. 재시작
sudo systemctl restart ollama
트러블슈팅
일반적인 문제
1. "ollama: command not found"
# 원인: PATH에 ollama가 없음
# 해결: 설치 확인
which ollama
# /usr/local/bin/ollama (있어야 함)
# 없으면 재설치
curl -fsSL https://ollama.com/install.sh | sh
2. "connection refused" (포트 11434 접속 불가)
# 원인: Ollama 서비스 미실행
# 해결: 서비스 시작
# Linux
sudo systemctl start ollama
# macOS
ollama serve &
# 확인
curl http://localhost:11434/api/tags
3. GPU 미감지 (NVIDIA)
# 확인: nvidia-smi 실행
nvidia-smi
# 에러 발생 시 → 드라이버 재설치
# CUDA 버전 확인
nvcc --version
# 11.8 이상 필요
# Ollama 재시작
sudo systemctl restart ollama
4. 메모리 부족 (OOM)
# 원인: 모델이 RAM보다 큼
# 해결: 더 작은 모델 사용
ollama pull phi3:mini # 3B, 8GB RAM
ollama pull llama3.2 # 3B, 8GB RAM
# 또는 양자화 버전
ollama pull llama3.2:7b-q4_0 # 4GB
로그 확인
# Linux (systemd)
sudo journalctl -u ollama -f
# macOS
tail -f ~/.ollama/logs/server.log
# Docker
docker logs -f ollama
다음 단계
Ollama 설치를 완료했습니다! 이제 다양한 모델을 탐색해봅시다.
핵심 정리
- Ollama 설치의 핵심 개념과 흐름을 정리합니다.
- 시스템 요구사항를 단계별로 이해합니다.
- 실전 적용 시 기준과 주의점을 확인합니다.
실무 팁
- 입력/출력 예시를 고정해 재현성을 확보하세요.
- Ollama 설치 범위를 작게 잡고 단계적으로 확장하세요.
- 시스템 요구사항 조건을 문서화해 대응 시간을 줄이세요.