Lokale LLMs Draaien: DeepSeek op een Mac Mini

9 May 2026 · 2 min lezen

Sinds een paar maanden draai ik lokale LLMs op mijn Mac Mini M4. Dit is waarom, hoe, en wat het oplevert.

Waarom lokaal?

Drie redenen:

Privacy — mijn prompts en data gaan niet naar OpenAI of Anthropic
Kosten — geen API credits, geen abonnement
Beschikbaarheid — geen rate limits, geen downtime van derden

Een Mac Mini M4 met 16GB RAM draait verrassend veel modellen. Het M4 neurale engine helpt, maar het echte werk gebeurt op de GPU cores via Metal.

Setup

# llama-server via Homebrew
brew install llama.cpp

# Download model (DeepSeek-R1-Distill-Qwen-7B, ~4GB)
llama-server \
  --model DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf \
  --host 0.0.0.0 \
  --port 8080

Dat is het. De server draait op poort 8080 en spreekt de OpenAI-compatibele API. Elke tool die met OpenAI API overweg kan (aider, opencode, custom scripts) werkt direct.

Performance

Model	Tokens/sec	RAM
DeepSeek-R1 7B (Q4)	~25 t/s	~6GB
Qwen2.5 7B (Q4)	~30 t/s	~5GB
Phi-3 Mini 4B (Q4)	~45 t/s	~3GB

Voor coding taken is het prima. Geen ChatGPT-4 niveau, maar voor daily use, refactoring en simpele vragen meer dan voldoende. En het is gratis.

Praktische toepassingen

Coding assistent met aider

aider --model openai/deepseek-r1 --no-git

Werkt verrassend goed voor Python refactoring en kleine features.

OpenCode agent

Lokaal model als backend voor code search, bestandswijzigingen en project analyse. Geen internet nodig.

Document samenvatting

Custom Python script dat PDFs en webpagina’s samenvat via de lokale API.

Beperkingen

Geen vision — deze modellen kunnen geen afbeeldingen verwerken
Context window — 8K tokens max, niets voor enorme codebases
Snelheid — het is geen datacenter GPU

Conclusie

Voor €0 per maand een capabele AI assistent in huis. De tech gaat hard — over een jaar draaien we waarschijnlijk 32B modellen op consumer hardware. Ik kan niet wachten.

Tags:

AI llm self-hosting deepseek

Gerelateerde posts

Mijn Homelab: Van Raspberry Pi naar Mac Mini M4

8 May 2026