RAG (Retrieval-Augmented Generation)
Technik, bei der ein LLM nicht aus dem Gedächtnis antwortet, sondern zuerst relevante Dokumente aus einer eigenen Wissensquelle abruft und seine Antwort darauf stützt.
Ein reines LLM kennt nur, was im Training enthalten war — eigene Firmendokumente, aktuelle Preislisten oder neue Verträge nicht. RAG löst das: Bei einer Anfrage werden zuerst passende Inhalte aus einer eigenen Datenquelle (PDFs, Wiki, Datenbank) abgerufen und dann gemeinsam mit der Frage an das Modell übergeben.
Technisch braucht es dafür drei Bausteine. Ein Embedding-Modell zerlegt Dokumente in kleinere Abschnitte (Chunks) und übersetzt sie in mathematische Vektoren. Eine Vektor-Datenbank — etwa Qdrant, Weaviate oder pgvector — speichert diese Vektoren und liefert bei einer Frage die semantisch ähnlichsten Abschnitte. Das LLM bekommt die gefundenen Stellen als Kontext mitgeliefert und formuliert die Antwort daraus.
Die Antwort basiert dann auf echten Fakten, nicht auf der „Allgemeinbildung" des Modells. RAG ist heute der Standard für Chatbots mit eigenen Inhalten — und einer der wichtigsten Bausteine für DSGVO-konforme Setups in Österreich und der EU. Sensible Daten bleiben in der eigenen Datenbank, müssen nicht ins Modelltraining wandern und können bei Auslaufen einer Auftragsverarbeitung jederzeit wieder entfernt werden.
In typischen KMU-Projekten ersetzt RAG nicht das Modell, sondern macht es brauchbar: Ohne RAG bleibt ChatGPT ein eloquentes Allgemeinwissen-Tool. Mit RAG wird daraus ein Werkzeug, das die eigenen Verträge, Produkte und Prozesse kennt.
Auf einen Blick
- Hosting
- EU-Hosting möglich, vollständig self-hostbar
- Kostenstruktur
- Embedding-Erstellung + Vektor-DB-Speicher + LLM-Calls
- DSGVO-Status
- Sensible Daten bleiben in der eigenen DB, kein Modelltraining
- Typischer Setup-Aufwand
- 3–10 Tage bei klar definierter Wissensbasis
Ein Support-Bot eines Online-Shops wird per RAG an die Produkt-Datenbank und die FAQ angebunden. Fragt ein Kunde nach Versandkosten nach Slowenien, holt der Bot die aktuelle Versandtabelle aus der Datenbank und formuliert daraus die Antwort — statt zu raten.
Wann einsetzen — und wann nicht
Sinnvoll bei
- Antworten müssen auf eigenen Dokumenten oder Datenbanken basieren
- Aktualität ist kritisch — Wissensbasis ändert sich monatlich oder öfter
- DSGVO-/Compliance-Auflagen verbieten, sensible Daten ins Modell zu trainieren
- Quellenangabe pro Antwort gewünscht (z.B. „Quelle: AGB Kapitel 4.2")
Eher nicht bei
- Allgemeinwissen reicht — ein klassisches LLM ohne Retrieval tut es
- Sehr kleine Wissensbasis (unter 30–50 Dokumenten) — dann reicht der Kontext direkt im Prompt
- Antworten benötigen tiefes mehrstufiges Reasoning über viele Dokumente — RAG findet, schlussfolgert aber nicht
Häufige Fehler
- Vektor-DB ohne sinnvolles Chunking — Dokumente werden als Riesen-Blöcke abgelegt, Retrieval findet immer den ganzen Block statt der relevanten Stelle
- Embedding-Modell und LLM aus unterschiedlichen Sprach-Familien kombiniert — Retrieval-Qualität bricht ein, besonders bei Deutsch
- Kein Re-Ranking nach der Vektor-Suche — der Top-Match per Cosine-Distance ist nicht immer der semantisch beste Treffer
Häufige Fragen
Brauche ich für RAG einen eigenen Server?
Wie aktuell sind die Antworten eines RAG-Systems?
Wie verhindere ich, dass das System halluziniert?
Was kostet ein RAG-System im Betrieb?
Funktioniert RAG auch auf Deutsch ordentlich?
In der Praxis: KI-Chatbot für Mieter-Standardfragen
Mieter-Portal mit KI-Chatbot für Standardfragen
Ein eigenes Portal für Ihre Mieter beantwortet Standardfragen via KI-Chatbot rund um die Uhr — auf Basis Ihrer Hausordnung, FAQs und Ansprechpartner. Komplexes wird als Ticket eskaliert.
Eigene Analyse startenKonkrete Frage zu diesem Thema?
Im Kennenlerngespräch übersetzen wir den richtigen Begriff in einen umsetzbaren Workflow für Ihr Unternehmen.
Kennenlerngespräch vereinbaren →