KI-Tools wie ChatGPT haben einen Nachteil: Ihr Wissen endet am Trainingsdatum. Sie kennen keine internen Firmendokumente, aktuellen Preislisten oder branchenspezifischen Richtlinien. RAG ist die Technik, die dieses Problem löst — und für KMU zunehmend praktisch relevant wird.
Kurze Antwort
RAG (Retrieval-Augmented Generation) ist eine Methode, bei der ein KI-Sprachmodell (LLM) vor der Antwortgenerierung relevante Informationen aus einer externen Wissensbasis abruft. Statt nur aus dem Training zu antworten, sucht das System zuerst in bereitgestellten Dokumenten und gibt die gefundenen Passagen als Kontext an das Modell weiter. Das Ergebnis: genauere, aktuelle und quellenbelegte Antworten.
| Merkmal | Standard-LLM | LLM mit RAG |
|---|---|---|
| Wissensstand | Bis Trainingsdatum | Aktuell (eigene Dokumente) |
| Firmeninterne Infos | Nein | Ja |
| Halluzinationsrisiko | Höher | Geringer |
| Einrichtungsaufwand | Keiner | Mittel bis hoch |
Definition
Retrieval-Augmented Generation kombiniert zwei Prozesse: erstens das Retrieval (Abruf) — relevante Textpassagen aus einer Dokumentensammlung werden anhand einer Suchanfrage gefunden. Zweitens die Generation — das LLM erhält diese Passagen als zusätzlichen Kontext und formuliert darauf basierend eine Antwort.
So sieht der Ablauf in der Praxis aus:
Nutzeranfrage: “Wie behebe ich Fehlercode E-147?” ↓ Retrieval: Das System durchsucht die Wissensbasis (Handbücher, PDFs, FAQs) ↓ Kontext: Relevante Textpassagen werden gefunden und zusammengestellt ↓ Generation: Das LLM erhält Frage + Passagen und formuliert eine Antwort ↓ Ergebnis: Techniker erhält konkrete Schritt-für-Schritt-Anleitung
Technisch funktioniert das über sogenannte Embeddings: Texte werden in numerische Vektoren umgewandelt, die semantische Ähnlichkeit abbilden. Bei einer Suchanfrage wird der Vektor der Frage mit den Vektoren der Dokumente verglichen. Die ähnlichsten Passagen werden dem LLM mitgegeben.
Für KMU bedeutet das: Ein Chatbot, der auf Basis interner Handbücher, FAQs oder Produktdaten antwortet — ohne dass die Dokumente ins Modell trainiert werden müssen. Die Dokumente bleiben in einer kontrollierten Datenbank; das LLM greift nur lesend darauf zu.
RAG ist der technische Gegenentwurf zum Fine-Tuning. Beim Fine-Tuning werden Modell-Parameter dauerhaft angepasst — aufwändig, teuer, und das Wissen ist statisch. RAG hält die Dokumente flexibel und aktuell — ohne neue Trainingsläufe.
Beispiel aus der Praxis
Ein mittelständischer Maschinenbauer mit 80 Mitarbeitern hat umfangreiche Wartungshandbücher, Fehler-Codebücher und interne Richtlinien — insgesamt 2.000 Seiten PDF. Der Kundendienst verbringt täglich 2 Stunden damit, Techniker-Anfragen manuell in diesen Dokumenten nachzuschlagen.
Ohne RAG: Servicemitarbeiter suchen manuell in PDFs. Antwortzeit: 15-30 Minuten pro Anfrage. Fehlerpotenzial bei veralteten Dokumentversionen hoch.
Mit RAG-System: Techniker stellen Fragen per Chat (“Fehlercode E-147, Modell MX-300”). Das System findet die relevante Passage im Handbuch, das LLM formuliert eine klare Anleitung. Antwortzeit: unter 30 Sekunden. Dokumente können wöchentlich aktualisiert werden — ohne neues Training. Zeitersparnis für den Kundendienst: ca. 1,5 Stunden täglich.
Typische Anwendungsfälle
- Interner Wissens-Chatbot: Mitarbeiter fragen Unternehmensrichtlinien, HR-Informationen oder Prozessdokumente ab.
- Kunden-Support-Bot: Beantwortet Produktfragen auf Basis aktueller Handbücher und FAQs.
- Vertragsanalyse: Anwaltskanzleien lassen Verträge gegen eigene Musterklauseln abgleichen.
- Recherche-Assistent: Journalisten oder Analysten durchsuchen große Dokumentenmengen.
- Onboarding: Neue Mitarbeiter bekommen Antworten aus dem aktuellen Onboarding-Handbuch.
- Compliance-Checks: Richtlinien werden gegen aktuelle Regularien abgeglichen.
- E-Commerce: Produktberater-Bots mit aktuellen Lagerdaten und Produktbeschreibungen.
Brauche ich RAG?
Das ist die entscheidende Frage. RAG lohnt sich nicht für jedes KMU.
RAG sinnvoll, wenn:
- ✅ Viele Dokumente vorhanden sind (Handbücher, FAQs, Richtlinien, Protokolle)
- ✅ Mitarbeiter oder Kunden häufig dieselben Wissensfragen stellen
- ✅ Informationen sich regelmäßig ändern und immer aktuell bleiben sollen
- ✅ Firmenwissen auf viele Köpfe und Dokumente verteilt ist
- ✅ Kein aufwändiges Modell-Training gewünscht wird
RAG meist unnötig, wenn:
- ❌ Nur wenige, einfache Dokumente vorhanden sind
- ❌ Standardaufgaben ohne firmenspezifisches Wissen erledigt werden sollen
- ❌ Allgemeine Texte (Marketing, E-Mails) generiert werden — dafür reicht Prompt Engineering
- ❌ Kein Entwickler oder passendes Tool für die Einrichtung vorhanden ist
Faustregel: Für die meisten KMU ist RAG der sinnvollere erste Schritt als Fine-Tuning — günstiger, flexibler und DSGVO-schonender, weil die Dokumente nicht ins Modell trainiert werden.
DSGVO-Relevanz
RAG-Systeme berühren DSGVO-Themen auf mehreren Ebenen:
Welche Daten fließen in die Wissensbasis? Wenn interne Dokumente personenbezogene Daten enthalten — Kundenlisten, Mitarbeiterdaten, Verträge — müssen diese Dokumente mit besonderer Sorgfalt behandelt werden. Wer die Wissensbasis befüllt und wer darauf zugreift, braucht eine klare Rechtsgrundlage.
Externe LLM-Anbieter. Die meisten RAG-Systeme nutzen externe LLM-APIs (z. B. OpenAI, Anthropic). Die abgerufenen Dokumentpassagen werden als Kontext an das LLM geschickt — das heißt, sie verlassen das eigene System. Enthält eine Passage personenbezogene Daten, greift die Pflicht zum AVV. Serverstandort und DPF-/SCC-Status des API-Anbieters sind zu prüfen.
Wer hat Zugriff auf die Wissensbasis? Ein schlecht konfiguriertes RAG-System gibt Nutzern Zugriff auf Dokumente, die sie nicht sehen dürften. Zugriffsrechte auf die Dokumentendatenbank müssen genauso wie im regulären Dokumentenmanagement konfiguriert sein.
Logging von Anfragen. Viele RAG-Systeme loggen die Nutzeranfragen. Wenn aus diesen Anfragen Personenbezug hergestellt werden kann, gilt Datensparsamkeit: Logs nur so lange aufbewahren, wie nötig, und mit klarer Rechtsgrundlage.
Empfehlung: Für eine interne Wissensbasis ohne Personenbezug ist der DSGVO-Aufwand gering. Sobald personenbezogene Dokumente einbezogen werden, braucht es eine Datenschutz-Folgenabschätzung und klare Zugriffskontrolle. On-Premise-RAG-Lösungen (eigene Server) minimieren das Drittland-Risiko.
Verwandte Begriffe
- LLM (Large Language Model): Das Sprachmodell, das bei RAG die Generierung übernimmt — z. B. GPT-4 oder Claude.
- Embedding: Numerische Vektorrepräsentation von Text — Grundlage der semantischen Suche in RAG.
- Vektordatenbank: Speichert und durchsucht Embeddings — Kernkomponente jedes RAG-Systems.
- Fine-Tuning: Alternative zu RAG — das Modell wird auf eigene Daten trainiert, nicht nur damit angereichert.
- Halluzination: Falsche Fakten, die ein LLM erfindet — RAG reduziert dieses Risiko durch Quellenbindung.
- Kontextfenster: Wie viel Text das LLM auf einmal verarbeiten kann — begrenzt, wie viele Passagen RAG übergeben kann.
Häufige Missverständnisse
-
“RAG und Fine-Tuning sind dasselbe.” Nein. Fine-Tuning verändert die Modellparameter dauerhaft. RAG fügt dem Modell zur Laufzeit externe Dokumente als Kontext hinzu — ohne das Modell zu verändern. Beide Ansätze haben unterschiedliche Einsatzbereiche.
-
“Mit RAG halluziniert die KI nicht mehr.” RAG reduziert Halluzinationen erheblich, eliminiert sie aber nicht vollständig. Das Modell kann immer noch falsch interpolieren, besonders wenn die Dokumente die Frage nicht klar beantworten.
-
“RAG ist nur was für Entwickler.” Es gibt zunehmend No-Code- und Low-Code-RAG-Tools, bei denen KMU Dokumente hochladen und sofort einen Chatbot darüber betreiben können — ohne Programmierkenntnis.
-
“Die eigenen Dokumente werden ins LLM hochgeladen und bleiben dort.” Bei RAG werden die Dokumente lokal gespeichert (in der Wissensbasis). Nur die bei einer Abfrage relevanten Passagen werden temporär an das LLM-API übermittelt — nicht alle Dokumente dauerhaft.
Häufig gestellte Fragen
Was kostet ein RAG-System für KMU? Das variiert stark: Einfache Chatbot-Tools mit RAG-Funktion kosten ab ca. 30-100 € im Monat. Individuelle Systeme auf Basis von Vektordatenbanken und LLM-APIs erfordern Entwicklungsaufwand (500-5.000 €+ je nach Komplexität) plus laufende API-Kosten.
Wie aktuell kann die Wissensbasis sein? Dokumente können in Echtzeit oder in regelmäßigen Abständen in die Wissensbasis eingespielt werden. Ein täglicher Sync mit einer SharePoint-Bibliothek ist technisch einfach umsetzbar.
Kann RAG mit deutschen Dokumenten umgehen? Ja. Moderne Embeddings-Modelle und LLMs unterstützen Deutsch gut. Die Qualität der Antworten hängt stark von der Qualität der Quelldokumente ab — gut strukturierte, klare Texte liefern bessere Ergebnisse.
Brauche ich für ein RAG-System einen Datenschutzbeauftragten? Nicht zwingend wegen RAG allein. Aber wenn die verarbeiteten Dokumente personenbezogene Daten enthalten oder viele Mitarbeiter das System nutzen, empfiehlt sich zumindest eine Datenschutz-Folgenabschätzung.
Welche Tools setzen RAG ein? Viele Tools integrieren RAG intern — oft unter Begriffen wie “Dokumente hochladen” oder “eigene Wissensbasis”. Beispiele aus unseren Tooltests: ChatGPT Plus (Datei-Upload, Analyse eigener Dokumente), Claude (Anthropic) (Projects mit Dokumentenkontext) und Notion AI (KI-Zugriff auf eigene Notizen und Dokumente). Wichtig: Diese Tools machen RAG für den Nutzer unsichtbar — die Dokumente werden trotzdem an den Anbieter übertragen, der DSGVO-Aufwand bleibt derselbe.
Fazit
RAG ist die pragmatischste Methode, um KI-Tools mit eigenem Firmenwissen zu verbinden — ohne aufwändiges Training und mit voller Kontrolle über die Dokumente. Für die meisten KMU ist RAG der sinnvollere erste Schritt als Fine-Tuning: günstiger, flexibler und DSGVO-schonender. Wer beginnen will: zuerst prüfen, ob ein fertiges Tool wie ChatGPT Plus oder Claude die Anforderungen erfüllt — das ist oft möglich, ohne ein eigenes RAG-System aufzubauen.
Passende Tooltests
Weiterführende Begriffe