Lokale LLMs Draaien: DeepSeek op een Mac Mini
Sinds een paar maanden draai ik lokale LLMs op mijn Mac Mini M4. Dit is waarom, hoe, en wat het oplevert.
Waarom lokaal?
Drie redenen:
- Privacy — mijn prompts en data gaan niet naar OpenAI of Anthropic
- Kosten — geen API credits, geen abonnement
- Beschikbaarheid — geen rate limits, geen downtime van derden
Een Mac Mini M4 met 16GB RAM draait verrassend veel modellen. Het M4 neurale engine helpt, maar het echte werk gebeurt op de GPU cores via Metal.
Setup
# llama-server via Homebrew
brew install llama.cpp
# Download model (DeepSeek-R1-Distill-Qwen-7B, ~4GB)
llama-server \
--model DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf \
--host 0.0.0.0 \
--port 8080
Dat is het. De server draait op poort 8080 en spreekt de OpenAI-compatibele API. Elke tool die met OpenAI API overweg kan (aider, opencode, custom scripts) werkt direct.
Performance
| Model | Tokens/sec | RAM |
|---|---|---|
| DeepSeek-R1 7B (Q4) | ~25 t/s | ~6GB |
| Qwen2.5 7B (Q4) | ~30 t/s | ~5GB |
| Phi-3 Mini 4B (Q4) | ~45 t/s | ~3GB |
Voor coding taken is het prima. Geen ChatGPT-4 niveau, maar voor daily use, refactoring en simpele vragen meer dan voldoende. En het is gratis.
Praktische toepassingen
Coding assistent met aider
aider --model openai/deepseek-r1 --no-git
Werkt verrassend goed voor Python refactoring en kleine features.
OpenCode agent
Lokaal model als backend voor code search, bestandswijzigingen en project analyse. Geen internet nodig.
Document samenvatting
Custom Python script dat PDFs en webpagina’s samenvat via de lokale API.
Beperkingen
- Geen vision — deze modellen kunnen geen afbeeldingen verwerken
- Context window — 8K tokens max, niets voor enorme codebases
- Snelheid — het is geen datacenter GPU
Conclusie
Voor €0 per maand een capabele AI assistent in huis. De tech gaat hard — over een jaar draaien we waarschijnlijk 32B modellen op consumer hardware. Ik kan niet wachten.
Tags:
Gerelateerde posts