KI-Glossar

Open-Source-LLM

KI-Modelle mit frei zugänglichen Gewichten, die selbst gehostet werden können — Llama, Mistral, Qwen, DeepSeek. Wichtigste Wahl für DSGVO-strenge Anwendungen und Self-Hosting auf eigener Hardware.

Open-Source-LLMs sind KI-Modelle, deren trainierte Modellparameter (die „Gewichte") frei zugänglich sind. Im Unterschied zu proprietären Modellen wie GPT-4 oder Claude — bei denen die Anwendung nur über eine Cloud-API möglich ist — können Open-Source-Modelle auf eigener Hardware betrieben werden. Das ermöglicht maximale DSGVO-Kontrolle, Kostenvorhersehbarkeit und Vendor-Unabhängigkeit.

Die wichtigsten Modell-Familien 2026 sind Llama (Meta) — mit Llama 3.1 und 3.2 — Mistral und Mixtral (französisch), Qwen (Alibaba, sehr stark bei mehrsprachigen Aufgaben), und DeepSeek (chinesisch, beeindruckende Leistung bei moderater Größe). Alle laufen über Ollama oder vergleichbare Self-Hosting-Frameworks lokal auf Mac Mini, Mac Studio oder eigenem Linux-Server mit GPU.

Hardware-Anforderungen variieren stark mit der Modellgröße. Kleine Modelle (7–8 Milliarden Parameter wie Mistral 7B, Llama 3.1 8B) laufen auf einem Mac Mini mit M2 Pro oder einem Standard-Linux-Server ohne Probleme. Mittlere Modelle (Mixtral 8x7B, Llama 3.1 70B) brauchen einen Mac Studio mit 64–96 GB Unified Memory oder eine GPU-Karte. Sehr große Modelle (Mixtral 8x22B, Llama 3.1 405B) verlangen High-End-Hardware oder Cluster-Setup.

Qualitativ haben Open-Source-LLMs 2026 die proprietären Modelle bei mittleren bis großen Aufgaben fast eingeholt. Für Standard-KMU-Anwendungen (Mail-Klassifikation, FAQ-Antworten, Datenextraktion, Reports) sind sie qualitativ ebenbürtig mit Claude Sonnet oder GPT-4o. Bei sehr komplexen Reasoning- oder Code-Aufgaben bleiben die proprietären Modelle aktuell vorne — aber der Abstand schrumpft jährlich.

Auf einen Blick

Top-Modelle 2026: Llama 3.1/3.2, Mistral/Mixtral, Qwen, DeepSeek
Hosting-Framework: Ollama (am einfachsten), vLLM (Performance), TGI (Hugging Face)
Hardware-Range: Mac Mini M2 Pro (klein) bis Mac Studio 128 GB (groß)
Kosten-Vorteil: Keine API-Kosten, nur Hardware + Strom

Beispiel aus der Praxis

Eine Anwaltskanzlei verarbeitet Mandanten-Korrespondenz mit KI. DSGVO-Anforderung: maximale Datenschutz-Kontrolle, keine externe Cloud. Lösung: Mac Studio mit 128 GB RAM, Mixtral 8x22B über Ollama, n8n als Workflow-Orchestrator — alles in der Kanzlei. Mandantendaten verlassen die eigene Hardware nicht, KI-Verarbeitung läuft trotzdem produktiv für Klassifikation, Aktenzusammenfassung und Schriftsatz-Entwürfe.

Wann einsetzen — und wann nicht

Sinnvoll bei

DSGVO-strenge Anwendungen mit besonders sensiblen Daten (Patientenakte, Anwalts-Mandantenakten, Finanzdaten)
Hohe Anfragen-Volumen, bei denen API-Kosten skaliert teuer würden
Vendor-Unabhängigkeit als strategische Anforderung
Forschung, Experimentier-Setups und langfristige Eigenentwicklung

Eher nicht bei

Sehr komplexe Reasoning-Aufgaben — proprietäre Modelle (Claude Opus, GPT-4o) noch stärker
Sehr kleine Volumen, bei denen API-Kosten unter Setup-Aufwand bleiben
Wenn keine geeignete Hardware verfügbar und keine Investition geplant ist
Code-Generierung als Hauptaufgabe — Claude Sonnet und Codestral besser

Häufige Fehler

Modell zu groß für Hardware wählen — Performance bricht ein oder läuft gar nicht
Englisch-trainiertes Modell für deutsche Aufgaben wählen — Qwen oder multilinguale Llama-Varianten besser
Setup-Aufwand unterschätzen — Ollama ist einfach, aber Tuning für Produktiv-Last braucht Erfahrung

Häufige Fragen

Welches Open-Source-LLM für Deutsch?

Erste Wahl 2026: Mixtral 8x7B (gut auf Mac Studio lauffähig, sehr stabil für Deutsch) oder Llama 3.1 70B (besser bei langen Texten, mehr Hardware nötig). Qwen ist besonders stark bei mehrsprachigen Aufgaben und Übersetzungen. DeepSeek bietet beeindruckende Qualität bei moderater Größe.

Welche Hardware brauche ich konkret?

Für kleine Modelle (Mistral 7B, Llama 8B): Mac Mini M2 Pro mit 32 GB RAM (€1.500). Für mittlere Modelle (Mixtral 8x7B): Mac Studio mit 64–96 GB RAM (€3.500–5.000). Für große Modelle (Mixtral 8x22B, Llama 70B): Mac Studio mit 128 GB RAM (€7.000) oder Server mit GPU.

Wie kompliziert ist das Self-Hosting?

Mit Ollama überraschend einfach: Installation per Befehl, Modell mit einem Kommando laden, REST-API steht. Für eine Pilot-Anwendung ist ein Open-Source-LLM in 1–2 Stunden produktiv ansprechbar. Komplexer wird es bei Produktiv-Last (Skalierung, Monitoring, Fallback-Pfade) — dafür planen wir mehrere Tage ein.

Wann lohnt sich Self-Hosting gegenüber API-Nutzung?

Drei typische Kriterien. Erstens: hohe Anfragen-Volumen — ab etwa 10.000 Anfragen pro Monat wird Self-Hosting wirtschaftlich. Zweitens: maximale Datenschutz-Kontrolle — Daten sollen die eigene Hardware nicht verlassen. Drittens: Vendor-Unabhängigkeit — Sie wollen nicht von API-Preisänderungen oder Modell-Abschaltungen abhängig sein.

Gibt es Lizenz-Einschränkungen bei Open-Source-LLMs?

Ja, aber für KMU-Anwendungen meist unproblematisch. Llama hat eine Custom-Lizenz von Meta — kommerzielle Nutzung erlaubt unter ~700 Millionen aktiven Nutzern pro Monat (gilt für 99,9 % aller KMU). Mistral-Open-Source-Modelle sind Apache-2-lizenziert (sehr permissiv). Qwen ähnlich. Konkret prüfen wir die Lizenzlage im Erstgespräch.

In der Praxis

In der Praxis: lokales Mixtral für DSGVO-konformen Mieter-Chatbot

Mieter-Portal mit KI-Chatbot für Standardfragen

Ein eigenes Portal für Ihre Mieter beantwortet Standardfragen via KI-Chatbot rund um die Uhr — auf Basis Ihrer Hausordnung, FAQs und Ansprechpartner. Komplexes wird als Ticket eskaliert.

6–10 h/Woche ZeitersparnisProjekt Setup: 20–30 Tage

Eigene Analyse starten

Konkrete Frage zu diesem Thema?

Im Kennenlerngespräch übersetzen wir den richtigen Begriff in einen umsetzbaren Workflow für Ihr Unternehmen.

Kennenlerngespräch vereinbaren →

← Zurück zum Glossar