KI-Glossar

Prompt Engineering

Die strukturierte Vorgehensweise, einem LLM Anweisungen so präzise zu formulieren, dass es zuverlässig gute Ergebnisse liefert — entscheidend für stabile KI-Workflows im Geschäftseinsatz.

Wer einem LLM nur sagt „schreib einen Text über X", bekommt austauschbare Ergebnisse. Prompt Engineering bedeutet, einem Modell ein präzises Briefing zu geben: Rolle, Kontext, Format, Beispiele, Einschränkungen.

In produktiven KI-Systemen ist der Prompt kein Text, sondern ein Template mit dynamischen Variablen — und er entscheidet maßgeblich über Qualität, Konsistenz und Verlässlichkeit der Ausgabe. Gute Prompts werden versioniert, getestet und über die Zeit verbessert, ähnlich wie Code. „Vibes-basierte" Prompts skalieren nicht.

Ein produktionstauglicher Prompt enthält typischerweise sechs Bestandteile: eine klare Rolle („Du bist Sales-Analyst für KMU im DACH-Raum"), den Kontext (Eingabedaten, Aufgabenrahmen), das gewünschte Ausgabeformat (JSON-Schema, Markdown-Sektionen, Wortlimit), ein oder zwei Beispiele (Few-Shot), explizite Grenzen („wenn keine Information vorhanden, schreibe ‚nicht ermittelbar'") und einen Konsistenz-Anker („antworte immer auf Deutsch, im Stil des bisherigen Textes").

Was in der Praxis am häufigsten unterschätzt wird: Prompts müssen unter Realdaten getestet werden, nicht unter idealisierten Beispielen. Erst wenn der Prompt mit 50–100 echten Eingaben durchgespielt wurde — inklusive Rand- und Fehlerfällen — lässt sich beurteilen, ob er stabil genug für Produktion ist. Prompt-Optimierung ist iterativ: jede Runde reduziert die Fehlerrate, perfekt wird sie selten.

Auf einen Blick

Standard-Bestandteile: Rolle, Kontext, Format, Beispiele, Grenzen, Konsistenz-Anker
Test-Empfehlung: Mindestens 50–100 Realdaten-Durchläufe vor Produktion
Tooling: Versionierung via Git, Tests via promptfoo oder LangSmith
Sprache: Deutscher Output verlangt oft explizite Sprachvorgabe im Prompt

Beispiel aus der Praxis

Statt „erstelle einen Lead-Bericht" definiert ein guter Prompt: „Du bist Sales-Analyst für KMU im DACH-Raum. Eingabe ist eine Website. Erstelle einen Bericht in drei Abschnitten: Geschäftsmodell, Schwachstellen, mögliche KI-Hebel. Maximal 200 Wörter. Wenn die Website keine Aussage erlaubt, schreibe ‚nicht ermittelbar'." Das Ergebnis ist verlässlich genug für tausend Leads pro Woche.

Wann einsetzen — und wann nicht

Sinnvoll bei

Jeder produktive LLM-Workflow — keine Ausnahme
Strukturierte Datenextraktion mit verlässlichem Schema
Klassifikations- und Routing-Aufgaben mit klaren Kategorien
Wiederholbare Generierungsaufgaben (Berichte, Zusammenfassungen, Texte)

Eher nicht bei

Reine Exploration und Brainstorming ohne Anspruch an Reproduzierbarkeit
Einmalige Ad-hoc-Aufgaben, bei denen der menschliche Output-Check ohnehin den Großteil der Arbeit ausmacht

Häufige Fehler

Prompt ohne Format-Vorgabe — das Modell liefert mal Markdown, mal JSON, mal Fließtext
Kein Fallback für „keine Information vorhanden" — das Modell erfindet stattdessen Antworten
Prompt-Updates ohne Versionierung — niemand weiß mehr, welche Variante in welcher Version produktiv war

Häufige Fragen

Wie lang sollte ein guter Prompt sein?

So lang wie nötig, so kurz wie möglich. Produktive Prompts haben oft 300–1.500 Wörter — kurz genug für niedrige Token-Kosten, lang genug für stabile Ausgaben. Über 2.000 Wörter wird es teuer, ohne meist Qualität zu bringen.

Wie teste ich, ob mein Prompt gut ist?

Eval-Suite anlegen: 50–100 echte Eingaben mit gewünschten Ausgaben (Goldstandard). Prompt durchlaufen lassen, Treffer- und Fehlerrate messen. Tools wie promptfoo, LangSmith oder Anthropic Workbench helfen, das systematisch zu tun statt mit dem Bauchgefühl.

Funktionieren Prompts modellübergreifend?

Nur eingeschränkt. Ein Prompt, der bei Claude Sonnet sauber läuft, kann bei GPT-4o leicht andere Ergebnisse liefern. Bei Modellwechsel immer Re-Evaluation — die Faustregel ist, dass rund 80 Prozent der Leistung übertragen werden, die letzten 20 Prozent brauchen Anpassung.

Was sind Few-Shot-Beispiele und wann nützen sie?

Ein bis drei konkrete Beispiele für gewünschte Eingabe-Ausgabe-Paare im Prompt. Sehr stark bei Klassifikations- und Formatierungsaufgaben. Weniger relevant bei generischen Generierungsaufgaben — dort hilft ein klarer Stil-Anker mehr.

In der Praxis

In der Praxis: Prompt strukturiert die Rechnungsdatenextraktion

Eingangsrechnungen automatisch erfassen & vorbuchen

Rechnungen aus dem Mail-Postfach werden per OCR + KI ausgelesen, dem richtigen Objekt zugeordnet und als Import-Datei für Ihre Buchhaltungssoftware bereitgestellt. Die Buchhaltung muss nur noch freigeben statt erfassen.

8–12 h/Woche ZeitersparnisMittlerer Aufwand Setup: 10–15 Tage

Eigene Analyse starten

Konkrete Frage zu diesem Thema?

Im Kennenlerngespräch übersetzen wir den richtigen Begriff in einen umsetzbaren Workflow für Ihr Unternehmen.

Kennenlerngespräch vereinbaren →

← Zurück zum Glossar