Embedding (Vektor-Repräsentation)
Mathematische Vektor-Darstellung von Text, Bild oder Audio — semantisch ähnliche Inhalte ergeben ähnliche Vektoren. Grundlage für KI-Suche, Klassifikation und RAG.
Ein Embedding ist die mathematische Übersetzung von Inhalt in eine Liste von Zahlen — typischerweise 384 bis 3.072 Werte pro Eintrag. Diese Zahlen sind so gewählt, dass Inhalte mit ähnlicher Bedeutung „nahe beieinander" im Vektor-Raum liegen. Der Begriff „König" hat ein Embedding, das näher zu „Königin" liegt als zu „Tisch" — auch wenn die Wörter buchstäblich nichts gemein haben.
Erzeugt werden Embeddings von spezialisierten Modellen, die für genau diese Aufgabe trainiert sind. Die wichtigsten 2026 sind text-embedding-3-small und text-embedding-3-large (OpenAI), Cohere multilingual-v3 (sehr stark für Deutsch), BGE-M3 (Open-Source, mehrsprachig), und für Bilder CLIP. Pro Anfrage werden wenige Cent an Kosten fällig — der Großteil der Kosten entsteht beim initialen Einbetten der gesamten Wissensbasis, nicht im laufenden Betrieb.
In KMU-Praxis ermöglichen Embeddings drei Hauptanwendungen. Erstens semantische Suche: ein FAQ-Bot findet die richtige Antwort auch dann, wenn der Mieter eine andere Wortwahl benutzt als im FAQ-Eintrag steht. Zweitens Klassifikation: eingehende Mails werden automatisch in Kategorien einsortiert, basierend auf inhaltlicher Ähnlichkeit zu Beispiel-Mails. Drittens Ähnlichkeits-Empfehlungen: bei einer neuen Anfrage zeigt das System ähnliche frühere Anfragen und deren Lösungen.
Wichtig für Deutsch-Inhalte: nicht jedes Embedding-Modell ist gleich gut. Englisch-trainierte Modelle (z.B. älteres OpenAI-Standard) liefern für Deutsch oft mittelmäßige Treffer-Qualität. Multilinguale Modelle wie BGE-M3 oder Cohere multilingual sind deutlich stabiler bei deutschsprachigen Wissensbasen.
Auf einen Blick
- Typische Dimensionalität
- 384 (klein, schnell) bis 3.072 (groß, präzise)
- Top-Modelle
- OpenAI text-embedding-3, Cohere, BGE-M3 (Open-Source)
- Kosten
- Wenige Cent pro 1.000 Chunks bei der Einbettung, dann praktisch null
- Deutsch-Empfehlung
- BGE-M3 oder Cohere multilingual für stabile Qualität
Eine Versicherungsmakler-Mail-Klassifikation: 200 historische Mails werden als Beispiele für 6 Kategorien (Schadensmeldung, Kündigung, Vertragsänderung, Anfrage, Beschwerde, Sonstiges) zu Embeddings umgewandelt. Eine neue eingehende Mail wird ebenfalls eingebettet und mit den Beispielen verglichen — die nächstgelegenen Beispiele bestimmen die Kategorie. Trefferquote in Praxis: 85–95 % ohne explizite Regeln.
Wann einsetzen — und wann nicht
Sinnvoll bei
- Semantische Suche, bei der Nutzer in natürlicher Sprache fragen
- Mail- oder Dokumenten-Klassifikation in vorgegebene Kategorien
- Ähnlichkeits-Empfehlungen (ähnliche Anfragen, ähnliche Lösungen)
- Vorstufe für RAG-Systeme mit eigener Wissensbasis
Eher nicht bei
- Exakte Übereinstimmung gesucht (Bestellnummer, Vertragsnummer) — Volltext-Index besser
- Strukturierte Filterung mit präzisen Kriterien (Postleitzahl, Datum) — SQL besser
- Wissensbasis zu klein (unter 30 Beispiele) — direkter Prompt-Kontext reicht
Häufige Fehler
- Englisch-trainiertes Embedding-Modell für deutsche Inhalte verwenden — Qualität bricht ein
- Embedding-Modell und Suchmodell aus unterschiedlichen Familien mischen
- Embeddings einmal erstellen und nie aktualisieren — bei Modell-Updates sollte neu eingebettet werden
Häufige Fragen
Was kostet das Einbetten meiner Daten?
Welches Embedding-Modell für Deutsch?
Was passiert, wenn ich später Daten ändere?
Bleiben meine Daten beim Anbieter, wenn ich Embeddings berechne?
Kann ich Bilder oder Audio statt Text einbetten?
In der Praxis: Embedding-basierte Mail-Klassifikation
Mieter-Mails automatisch sortieren & weiterleiten
KI klassifiziert eingehende Mieter-Mails, sortiert sie in passende Gmail-Labels (oder Outlook-Ordner), antwortet automatisch mit Eingangsbestätigung und Ticketnummer und benachrichtigt den zuständigen Verwalter.
Eigene Analyse startenKonkrete Frage zu diesem Thema?
Im Kennenlerngespräch übersetzen wir den richtigen Begriff in einen umsetzbaren Workflow für Ihr Unternehmen.
Kennenlerngespräch vereinbaren →