Retrieval Augmented Generation (RAG): Was ist RAG in der KI?

Aktualisiert: 13. März 2026 Lesezeit: ~

Retrieval Augmented Generation (RAG) hilft großen Sprachmodellen (LLMs) dabei, genauere und originalgetreuere Antworten zu liefern, indem aktiv Informationen aus externen Quellen abgerufen werden, bevor eine Antwort generiert wird. Es verankert die Ergebnisse in aktuellen Daten und reduziert so Halluzinationen des internen Wissens des Modells. Obwohl RAG die Zuverlässigkeit verbessert, können dennoch Fehler auftreten, wenn das Modell abgerufene Informationen falsch interpretiert, auf widersprüchliche Kontexte stößt oder wichtige Details übersieht.

Für Unternehmensanwendungen müssen LLMs den Geschäftskontext verstehen, einschließlich Produkt-Roadmaps, Kundenhistorien und interner Richtlinien. RAG verknüpft das allgemeine Wissen des Modells mit firmeneigenen Organisationsdaten, um faktische, kontextspezifische Informationen bereitzustellen. Um vertrauliche Informationen zu schützen, muss die Abrufpipeline mit überprüfbaren Identitätskontrollen gesichert werden, sodass nur autorisierte Benutzer oder KI-Agenten auf Unternehmensdaten zugreifen können.

Wie Retrieval Augmented Generation (RAG) funktioniert

RAG-Systeme greifen auf externe Wissensquellen wie interne Datenbanken oder Vektorspeicher zurück, um einen faktischen Kontext für die LLM-Ausgaben bereitzustellen. Die Dokumente werden in dichte oder spärliche Einbettungen umgewandelt, was eine semantische Suche und einen hybriden Abruf ermöglicht, der Relevanzbewertung mit exakten Übereinstimmungen kombiniert. Die wichtigsten, relevanten Informationen werden in das Kontextfenster des Modells eingespeist, wodurch die Tendenz des LLM zur Konfabulation reduziert wird und gleichzeitig Unternehmens-Anwendungsfälle unterstützt werden, die genaue, private Daten erfordern.

Im Großen und Ganzen lässt sich RAG in zwei Phasen unterteilen. Erstens verankert es die Ergebnisse des LLM in einem aktuellen faktischen Kontext, reduziert Wissenslücken und ermöglicht einen sicheren Echtzeitzugriff auf firmeneigene Daten.

Phase 1: Kerndefinitionen und -abruf

Wenn ein Benutzer eine Frage eingibt, durchsucht das RAG-System zuerst externe Datenquellen. Vektordatenbanken dienen in der Regel als Speicherebene und enthalten mathematische Repräsentationen von Dokumenten, sogenannte Einbettungen. Die mehrdimensionale Indexierung ermöglicht es dem System, nach semantischer Bedeutung zu suchen oder eine Hybridsuche durchzuführen, die semantische Relevanz mit exakter Stichwortübereinstimmung kombiniert. Die Ähnlichkeitsbewertung identifiziert Informationsblöcke oder Datensätze, die anhand von Ähnlichkeitsmetriken wie Kosinusähnlichkeit, innerem Produkt oder euklidischer Distanz bewertet wurden. Es ordnet sie nach ihrer Punktzahl, um die Kandidaten mit der höchsten Punktzahl zu ermitteln, die am relevantesten für die Suchanfrage sind.

Zu den Abrufquellen gehören:

  • Interne Dokumentationen und Wikis, die wichtige Unternehmensabläufe enthalten.
  • Kundensupport-Tickets, die zeigen, wie technische Probleme in der Vergangenheit gelöst wurden.
  • Echtzeitdaten von APIs, einschließlich neuer Standards wie Model Context Protocol (MCP) oder dynamischer Funktionsaufrufe an Live-Datenbanken
  • Technische Handbücher und Produktspezifikationen indexiert für die semantische Suche

Phase 2: Der Erweiterungsprozess

Die abgerufenen Informationen werden neu eingestuft, um den Snippets mit dem höchsten Signal Priorität einzuräumen, bevor sie der Aufforderung als kontextabhängige Eingabe hinzugefügt werden. Die erweiterte Eingabeaufforderung wird dann dem LLM innerhalb seines Kontextfensters zugeführt. Das Modell generiert eine Antwort, die sowohl auf seinen Training Data als auch auf dem abgerufenen Kontext basiert. Da bei der Generierung auf Quellmaterial verwiesen wird, sind die Antworten fundierter, sodass RAG für geschäftskritische Anwendungsfälle geeignet ist, in denen probabilistisches Erraten nicht akzeptabel ist.

Die sich abzeichnende Autorisierungslücke

Sicherheit wird während des Abrufvorgangs entscheidend. KI-Agenten greifen häufig auf Datenquellen zu, die sensible Kundeninformationen oder firmeneigene Geschäftsdaten enthalten. Herkömmliche RAG-Implementierungen übersehen häufig eine entscheidende Frage: Wie bestätigen wir, dass der Agent nur die Daten abruft, die der anfragende Benutzer sehen darf?

Die feingranulare Autorisierung (FGA) behebt diese Kontrolllücken und führt zu einer verstärkten Akzeptanz von RAG-Systemen in Unternehmen. Verschiedene Benutzer können ähnliche Fragen stellen, benötigen jedoch Zugriff auf unterschiedliche Datensätze. Wenn ein junger Mitarbeiter nach der Vergütung von Führungskräften fragt und das RAG-System eine vertrauliche Tabelle abruft, ist die Folge ein schwerwiegendes Datenleck. Ohne angemessene dynamische Autorisierungskontrollen besteht bei RAG-Systemen die Gefahr, dass sensible Daten durchsickern. Datenlecks in großem Umfang können über Indirect Prompt Injection (IPI) auftreten, ein neuer Begriff, der oft mit allgemeinen Prompt-Injection-Angriffen in Verbindung gebracht wird, bei denen böswillige Anweisungen in abgerufene Dokumente oder andere Formen der unbefugten Kontextmanipulation eingebettet werden.

Die zentrale Sicherheitsherausforderung von RAG

Wenn Unternehmen RAG einsetzen, führen sie eine neue Klasse von nicht-menschlichen Identitäten ein – den KI-Agenten. Diese Agenten handeln im Namen der Benutzer oder arbeiten autonom, um Informationen zu verarbeiten. KI-Agenten stellen Sicherheitsherausforderungen dar, die herkömmliche Identitätsmanagementsysteme nicht im großen Maßstab bewältigen können. Organisationen verwalten nicht mehr nur den Zugriff durch Menschen, sondern auch den Zugang für digitale Arbeitskräfte und deren zugehörige Dienstprinzipale.

Das Problem der Agentenidentität

KI-Agenten passen nicht sauber in Legacy-Identity-Frameworks. Sie sind keine menschlichen Benutzer mit Passwörtern, sondern auch komplexer als herkömmliche API-Integrationen. Agenten können autonome Entscheidungen treffen, systemübergreifend arbeiten, Aufgaben kontinuierlich ausführen und sensible Daten wie personenbezogene Daten (PII) und geistiges Eigentum verarbeiten.

Langlebige API-Keys oder statische Service-Accounts bergen Risiken, weil sie umfassenden, dauerhaften Zugriff gewähren. Wenn ein Agent kompromittiert ist, können sich Angreifer seitwärts bewegen und Daten ohne Einschränkungen exfiltrieren. Moderne Architekturen mindern dieses Risiko, indem sie kurzlebige Token und Workload-Identitätsverbund (WIF) verwenden, was einen überprüfbaren, kurzlebigen Zugriff ohne gemeinsame Geheimnisse ermöglicht.

Das Schatten-KI-Problem

Ohne strenge Identitätskontrollen riskieren Unternehmen Schatten-KI, die entsteht, wenn KI-Agenten ohne zentrale Sichtbarkeit oder Sicherheitsaufsicht entwickelt und eingesetzt werden. Entwickler können RAG-Pipelines problemlos außerhalb zugelassener Umgebungen erstellen und sie manchmal direkt mit Produktionsdatenquellen verbinden. Schatten-KI erhöht das Unternehmensrisiko, indem sie versteckte Angriffsflächen schafft und Protokolle zur Verhinderung von Datenverlust umgeht.

Sicherung von RAG: Die Identitätsgrundlage

RAG-Sicherheit darf nicht vernachlässigt werden. Organisationen benötigen einen von Grund auf sicheren Ansatz, bei dem Identität als Kontrollebene für den KI-Zugriff dient. Jeder Agent und jede Datenanfrage müssen authentifiziert und autorisiert werden.

1. Sicherung des Datenzugriffs für Agenten mit zentralisierter anwendungsübergreifender Zugriffsautorisierung.

KI-Agenten benötigen eine robuste Machine-to-Machine-(M2M)-Authentifizierung. M2M-Autorisierungsmuster zentralisieren Zugriffsentscheidungen über eine gemeinsame Identitätskontroll-Ebene. Die zentralisierte Durchsetzung von Richtlinien funktioniert über fragmentierte Vektorspeicher und Legacy-APIs hinweg. 

Zu den wichtigsten Strategien gehören:

  • Zero Standing Privilegien (ZSP): Ein Just-in-Time-Zugriffsmuster (JIT), das Berechtigungen nur für die Dauer einer Aufgabe gewährt und unmittelbar danach widerrufen wird. JIT minimiert den Gefährdungsbereich eines kompromittierten Agenten und hilft, eine Rechteausweitung zu verhindern.
  • Zugriffsbeschränkungen: Agenten haben nur Zugriff auf die Ressourcen, die für ihre aktuelle Funktion erforderlich sind. Dadurch wird das Prinzip der Least Privilege (P.o.L.P.) auf API- und Datenzeilenebene durchgesetzt.
  • Delegierte Autorisierung: Mithilfe der Autorisierung im Namen des Benutzers propagiert das System Identitäten, um den Datenzugriff auf die Schnittmenge der Berechtigungen des Agenten und des Benutzers zu beschränken. Diese Zwei-Ebenen-Beschränkung verhindert effektiv Angriffe von „verwirrten Stellvertretern“.

2. Audit und Rückverfolgbarkeit

Die Aktionen des Agenten müssen auf einen Menschen oder ein auslösendes System zurückgeführt werden können. Die Rückverfolgbarkeit basiert auf detaillierten Auditprotokollen, die erfassen, welcher Benutzer eine Aktion initiiert hat und auf welche Datenquellen während des Abrufs zugegriffen wurde. In regulierten Branchen unterstützen detaillierte Prüfprotokolle die Einhaltung von Vorschriften und die Untersuchung von Vorfällen. Organisationen müssen zunehmend nachweisen können, welche spezifischen Vektor-„Kontext-Chunks“ die KI verwendet hat, um ihre Reaktion zur Aufrechterhaltung einer Datenkette zu generieren.

3. Menschliche Beteiligung bei risikoreichen Aktionen.

Nicht jede Agentenaktion sollte automatisch ausgeführt werden. Bei Vorgängen mit sensiblen Daten oder finanziellen Auswirkungen profitieren RAG-Systeme von expliziten menschlichen Genehmigungsschritten, die durch asynchrone oder Step-up-Autorisierungs-Workflows implementiert werden. Der Agent unterbricht die Ausführung, bis ein menschlicher Prüfer die Aktion autorisiert, sodass Menschen die Kontrolle über riskante Entscheidungen behalten.

Die Rolle der feingranularen Autorisierung (FGA)

Um RAG in großem Umfang zu gewährleisten, gehen Organisationen oft über die grobkörnige rollenbasierte Zugriffskontrolle (Role-Based Access Control, RBAC) hinaus. FGA ermöglicht Zugriffsentscheidungen auf Objekt- oder Beziehungsebene, was besonders wichtig ist, wenn Vektordatenbanken Daten aus mehreren Quellen mit unterschiedlichen Berechtigungen der Quellsysteme indizieren.

Warum F.G.A. eine aufkommende Best Practice für R.A.G. ist

Während des Abrufs kann das RAG-System einen Autorisierungsdienst in Echtzeit abfragen, um festzustellen, ob ein Benutzer auf ein bestimmtes Dokumentfragment zugreifen darf. Unautorisierte Inhalte werden aus dem Kandidatenset ausgeschlossen, bevor sie das Kontextfenster des Modells aufrufen. Autorisierungsabfragen in Echtzeit tragen dazu bei, dass abgerufene Dokumente zur Abfragezeit den bestehenden Zugriffskontrollen entsprechen, anstatt sich auf statische Filterung zu verlassen.

Die Autorisierung in Echtzeit unterstützt:

  • Rebac: Zugriffsgewährung hängt davon ab, ob ein Benutzer eine Datei besitzt oder Teil eines bestimmten Projektteams ist, das in einem gerichteten Diagramm von Berechtigungen definiert ist
  • Dynamische Genehmigung: Sofortiger Widerruf des Zugriffs, ohne die gesamte Vektordatenbank erneut einbetten oder indexieren zu müssen.
  • Granularität: Schutz von Daten auf Absatz- oder Datensatzebene, anstatt ganze Dateien zu sperren, was den Nutzen des LLM maximiert und gleichzeitig die Integrität der Datengrenzen bewahrt

Einheitliche Identitätskontrollebene

RAG-Projekte können in der Produktion eher aufgrund der Komplexität der Datenverwaltung als aufgrund der Modellleistung Schwierigkeiten haben. Organisationen, die Identität vom ersten Tag an priorisieren, können leichter skalieren. Die Verwaltung der Identität von Agenten auf mehreren getrennten Plattformen erhöht das Betriebsrisiko. Eine einheitliche Identitätskontrollebene zentralisiert die Sichtbarkeit, vereinfacht die Durchsetzung von Richtlinien und reduziert den Bedarf an benutzerdefinierter Autorisierungslogik. Indem sie KI-Agenten als erstklassige Identitäten behandeln, können Unternehmen RAG skalieren, ohne persistente, überprivilegierte Zugriffspfade einzuführen, und die Nichtabstreitbarkeit aller von Agenten gesteuerten Transaktionen ermöglichen.

Häufig gestellte Fragen

Worin besteht der Unterschied zwischen RAG und Feinabstimmung?

RAG zieht zum Zeitpunkt der Abfrage externe Informationen hinzu, um die Antworten auf Basis der aktuellen Daten zu verankern. Beim Feintuning wird das Modell anhand spezifischer Datensätze neu trainiert, um interne Gewichte und das Verhalten anzupassen. RAG eignet sich am besten für Wissen, das sich häufig ändert, und zur Aufrechterhaltung strenger Datenzugriffsgrenzen, die durch Feinabstimmung nicht durchgesetzt werden können.

Was ist eine Vektordatenbank in RAG?

Eine Vektordatenbank speichert Daten als mathematische Einbettungen, die die semantische Bedeutung erfassen. In einem RAG-System werden Dokumente in Vektoren umgewandelt. Wenn eine Anfrage gestellt wird, findet das System anhand von Ähnlichkeitsmetriken, wie Kosinusähnlichkeit, die nächstgelegenen Vektoren. Maximale Marginalrelevanz (MMR) ist eine Methode zur Neubewertung und Diversität, keine primäre Ähnlichkeitskennzahl. MMR bestätigt dann sowohl die Genauigkeit als auch die kontextuelle Vielfalt und gibt dem LLM eine repräsentative, nicht redundante Beweislage. Das Ergebnis ist eine absichtsbasierte Suche, die die herkömmliche Stichwortsuche übertrifft.

Wie reduziert RAG Halluzinationen bei LLMs?

RAG reduziert parametrische Halluzinationen, indem es dem Modell den abgerufenen Kontext bereitstellt. Das Modell stützt seine Antwort auf Faktendaten und nicht ausschließlich auf erlernten probabilistischen Mustern. Sie können das System anweisen, den abgerufenen Kontext zu bevorzugen und anzeigen, wenn Informationen nicht verfügbar sind, wodurch das Modell mithilfe der bereitgestellten Informationen von einer generativen zu einer diskriminativen Aufgabe wechselt.

Was sind die wichtigsten Sicherheitsherausforderungen von RAG?

Die größte Herausforderung besteht darin, den Zugriff während des Abrufs zu kontrollieren. KI-Agenten können sensible Daten abfragen, daher sind Autorisierungskontrollen unerlässlich. Zu den weiteren Risiken gehören nicht verwaltete Shadow-KI-Agenten und die Verwendung unsicherer, langlebiger API-Schlüssel. Die Implementierung detaillierter Zugriffskontrollen und kontinuierlicher Audits trägt dazu bei, diese Risiken zu minimieren und gleichzeitig vor Prompt-Injection-Angriffen zu schützen, die auf die Abruflogik abzielen.

Funktioniert RAG auch mit strukturierten Daten?

Ja, RAG kann sowohl mit unstrukturiertem Text als auch mit strukturierten Daten arbeiten. In strukturiertem RAG (oft als „Text-to-SQL“ oder „Table-RAG“ bezeichnet, alternative Benennung; nicht standardisiert) verwendet das System möglicherweise semantisches Mapping, um eine SQL-Abfrage zu generieren, um bestimmte Datensätze aus einem Data Warehouse abzurufen. Die Abfrageergebnisse werden in einen natürlichen Sprachkontext umgewandelt, damit das LLM sie verarbeiten kann. Dies erfordert jedoch parametrisierte Abfragen und zusätzliche Validierungsebenen, um unbefugte Datenexfiltration oder SQL-Injection zu verhindern. SQL-Injection ist ein Risiko unsicherer Abfragegenerierung, das nicht RAG inhärent ist.

Sichere KI mit Identity einsetzen

Die Überführung von RAG in die Serienproduktion erfordert mehr als nur Prompt Engineering. Es erfordert, Identität als grundlegende Sicherheitskontrolle zu behandeln. Die Leitplanken müssen durch Authentifizierung, Autorisierung und Auditprotokollierung durchgesetzt werden.

Die Okta Platform bietet eine einheitliche Identity Layer, die Unternehmen dabei hilft, KI-Agenten zu entwickeln, die von Design her sicher sind. Durch die Steuerung sowohl menschlicher als auch nicht-menschlicher Identitäten über eine einzige Steuerungsebene erhalten Organisationen die nötige Transparenz und Kontrolle, um Datenlecks zu verhindern, Schatten-KI zu verwalten und den vollen Geschäftswert von RAG auszuschöpfen.

Mehr erfahren

Setzen Sie Ihre Identity Journey fort