KI-Glossar

RAG (Retrieval-Augmented Generation)

Technik, bei der ein LLM nicht aus dem Gedächtnis antwortet, sondern zuerst relevante Dokumente aus einer eigenen Wissensquelle abruft und seine Antwort darauf stützt.

Ein reines LLM kennt nur, was im Training enthalten war — eigene Firmendokumente, aktuelle Preislisten oder neue Verträge nicht. RAG löst das: Bei einer Anfrage werden zuerst passende Inhalte aus einer eigenen Datenquelle (PDFs, Wiki, Datenbank) abgerufen und dann gemeinsam mit der Frage an das Modell übergeben.

Technisch braucht es dafür drei Bausteine. Ein Embedding-Modell zerlegt Dokumente in kleinere Abschnitte (Chunks) und übersetzt sie in mathematische Vektoren. Eine Vektor-Datenbank — etwa Qdrant, Weaviate oder pgvector — speichert diese Vektoren und liefert bei einer Frage die semantisch ähnlichsten Abschnitte. Das LLM bekommt die gefundenen Stellen als Kontext mitgeliefert und formuliert die Antwort daraus.

Die Antwort basiert dann auf echten Fakten, nicht auf der „Allgemeinbildung" des Modells. RAG ist heute der Standard für Chatbots mit eigenen Inhalten — und einer der wichtigsten Bausteine für DSGVO-konforme Setups in Österreich und der EU. Sensible Daten bleiben in der eigenen Datenbank, müssen nicht ins Modelltraining wandern und können bei Auslaufen einer Auftragsverarbeitung jederzeit wieder entfernt werden.

In typischen KMU-Projekten ersetzt RAG nicht das Modell, sondern macht es brauchbar: Ohne RAG bleibt ChatGPT ein eloquentes Allgemeinwissen-Tool. Mit RAG wird daraus ein Werkzeug, das die eigenen Verträge, Produkte und Prozesse kennt.

Auf einen Blick

Hosting: EU-Hosting möglich, vollständig self-hostbar
Kostenstruktur: Embedding-Erstellung + Vektor-DB-Speicher + LLM-Calls
DSGVO-Status: Sensible Daten bleiben in der eigenen DB, kein Modelltraining
Typischer Setup-Aufwand: 3–10 Tage bei klar definierter Wissensbasis

Beispiel aus der Praxis

Ein Support-Bot eines Online-Shops wird per RAG an die Produkt-Datenbank und die FAQ angebunden. Fragt ein Kunde nach Versandkosten nach Slowenien, holt der Bot die aktuelle Versandtabelle aus der Datenbank und formuliert daraus die Antwort — statt zu raten.

Wann einsetzen — und wann nicht

Sinnvoll bei

Antworten müssen auf eigenen Dokumenten oder Datenbanken basieren
Aktualität ist kritisch — Wissensbasis ändert sich monatlich oder öfter
DSGVO-/Compliance-Auflagen verbieten, sensible Daten ins Modell zu trainieren
Quellenangabe pro Antwort gewünscht (z.B. „Quelle: AGB Kapitel 4.2")

Eher nicht bei

Allgemeinwissen reicht — ein klassisches LLM ohne Retrieval tut es
Sehr kleine Wissensbasis (unter 30–50 Dokumenten) — dann reicht der Kontext direkt im Prompt
Antworten benötigen tiefes mehrstufiges Reasoning über viele Dokumente — RAG findet, schlussfolgert aber nicht

Häufige Fehler

Vektor-DB ohne sinnvolles Chunking — Dokumente werden als Riesen-Blöcke abgelegt, Retrieval findet immer den ganzen Block statt der relevanten Stelle
Embedding-Modell und LLM aus unterschiedlichen Sprach-Familien kombiniert — Retrieval-Qualität bricht ein, besonders bei Deutsch
Kein Re-Ranking nach der Vektor-Suche — der Top-Match per Cosine-Distance ist nicht immer der semantisch beste Treffer

Häufige Fragen

Brauche ich für RAG einen eigenen Server?

Nein. RAG lässt sich vollständig in der Cloud betreiben — Vektor-DB als Managed Service (Qdrant Cloud, Pinecone), LLM über API. Self-Hosting ist eine Option für maximale DSGVO-Kontrolle oder Kostenoptimierung bei sehr hohem Volumen, kein Muss.

Wie aktuell sind die Antworten eines RAG-Systems?

So aktuell wie Ihre Datenquelle. Ein RAG-System „weiß" alles, was in der Wissensbasis steht — sobald Sie ein Dokument aktualisieren und neu einbetten, fließt es in die nächste Antwort ein. Das ist der große Vorteil gegenüber klassischen LLMs, deren Wissen am Training-Cut-Off endet.

Wie verhindere ich, dass das System halluziniert?

RAG reduziert Halluzinationen, eliminiert sie aber nicht. Drei Schutzmechanismen sind Standard: Prompt-Anweisung „antworte nur aus dem Kontext, sonst sage ‚nicht ermittelbar'", ein Confidence-Threshold (Antwort verweigern, wenn Retrieval-Score zu niedrig), und Quellen-Snippets sichtbar mitausgeben — der Nutzer kann selbst verifizieren.

Was kostet ein RAG-System im Betrieb?

Drei Kostenposten: Embedding-Erstellung (einmalig pro Dokument-Version, wenige Cent pro 1.000 Chunks), Vektor-DB-Speicher (typisch 10–50 Euro/Monat bei KMU-Wissensbasis), LLM-Calls (variabel nach Volumen — bei rund 1.000 Anfragen/Monat oft unter 30 Euro mit Claude Haiku oder GPT-4o-mini).

Funktioniert RAG auch auf Deutsch ordentlich?

Ja, aber die Embedding-Wahl ist entscheidend. Englisch-trainierte Embeddings (z.B. text-embedding-3-small) liefern auf Deutsch oft mittelmäßige Retrieval-Qualität. Multilinguale Modelle wie Cohere multilingual oder BGE-M3 sind deutlich stabiler für deutsche Wissensbasen.

In der Praxis

In der Praxis: KI-Chatbot für Mieter-Standardfragen

Mieter-Portal mit KI-Chatbot für Standardfragen

Ein eigenes Portal für Ihre Mieter beantwortet Standardfragen via KI-Chatbot rund um die Uhr — auf Basis Ihrer Hausordnung, FAQs und Ansprechpartner. Komplexes wird als Ticket eskaliert.

6–10 h/Woche ZeitersparnisProjekt Setup: 20–30 Tage

Eigene Analyse starten

Konkrete Frage zu diesem Thema?

Im Kennenlerngespräch übersetzen wir den richtigen Begriff in einen umsetzbaren Workflow für Ihr Unternehmen.

Kennenlerngespräch vereinbaren →

← Zurück zum Glossar