Was ist ein KI-Agent-Angriffspunkte?
Der Begriff „KI-Agenten-Angriffspunkte“ bezeichnet die einzigartigen Schwachstellen, die durch autonome KI-Agenten entstehen, wenn diese mit externen Tools, APIs und anderen Agenten interagieren. Da diese nicht-menschlichen Identitäten (NHIs) programmgesteuert arbeiten und nicht auf traditionelle, menschenzentrierte Sicherheitskontrollen angewiesen sind, können sie eine erhebliche Angriffsfläche schaffen. Angreifer können diese Agenten durch sprachbasierte Bedrohungen wie Kontextvergiftung, Namensangriffe und umgekehrte Prompt-Injektion ausnutzen, um die Agentenlogik zu manipulieren und möglicherweise Daten zu exfiltrieren. Die Implementierung eines Identity Security Fabric kann Organisationen dabei helfen, KI-Agenten als erstklassige Identitäten zu behandeln und Zero Trust sowie Just-in-Time-Zugriff (JIT) durchzusetzen, um eine schleichende Ausweitung von Berechtigungen zu verhindern.
Das schnelle Wachstum generativer KI hat eine neue Kategorie von Software geschaffen: autonome Agenten. Agentenbasierte KI-Systeme führen aktiv Aufgaben aus, greifen auf Datenbanken zu und interagieren mit externen Tools, um komplexe Ziele ohne menschliches Eingreifen zu erreichen. Diese Automatisierung kann zwar einen erheblichen Geschäftswert bieten, bringt aber auch neue Sicherheitsherausforderungen mit sich. Laut einer Studie von Gartner glauben 74 % der IT-Anwendungsleiter, dass KI-Agenten neue Angriffspunkte darstellen, mit weit verbreiteten Bedenken hinsichtlich der Governance und der Agentenflut.
Wenn Unternehmen die Automatisierung mithilfe von Service-Accounts, APIs und KI-Agenten mit Maschinen-Anmeldedaten skalieren, erhalten diese Identitäten oft mehr Berechtigungen, als sie benötigen. Diese übermäßige Anhäufung von Zugriffen, bekannt als Privilege Creep bei nichtmenschlichen Identitäten, kann zu einer kritischen Sicherheitslücke in modernen Cloud-Umgebungen führen. Traditionelle Security-Teams haben sich historisch darauf konzentriert, Perimeter zu sichern und menschzentrierte Zugriffskontrollen durchzusetzen. Nicht-menschliche Identitäten arbeiten jedoch programmgesteuert und kontinuierlich, oft ohne direkte Aufsicht nach ihrer Erstellung. Dieser Unterschied erfordert einen differenzierten Ansatz in der Unternehmensführung.
Wie sich die Angriffsflächen von KI-Agenten verändern
Sprachmodelle und Cybersicherheitsvertrauen
Security-Teams müssen verstehen, dass sich die Angriffspunkte von KI-Agenten in wesentlichen Punkten von vielen herkömmlichen Cyber-Bedrohungen unterscheiden. Die Verteidigung auf Netzwerkebene und Legacy-Firewalls für Webanwendungen wurden so konzipiert, dass sie erkennbare Malware-Signaturen und bekannte Exploit-Nutzlasten blockieren. Diese Kontrollen sind möglicherweise unzureichend gegen autonome Agenten, da die Bedrohungen nicht an Code erinnern. Sie ähneln natürlicher Sprachkommunikation.
Gemäß der Taxonomie des Adversarial Machine Learning des NIST (NIST AI 100-2e2025) sind „Prompt Injection“ und „Indirect Prompt Injection“ dokumentierte Sicherheitsrisiken in generativen KI-Systemen. Bei Sprachmodellen verlagert sich die Angriffsfläche auf die Anwendungs-Ebene (L7), wo Angriffe semantische Interpretationen statt binärer Schwachstellen ausnutzen.
Architektonische Vertrauensannahmen in der Sicherheit von KI-Agenten
Wenn ein KI-Agent mit einem externen Tool oder einem anderen Agenten kommuniziert, stützt er sich auf Anweisungen in natürlicher Sprache und Kontextdaten, um Entscheidungen zu treffen. Vielen aktuellen Architekturen fehlen zuverlässige Mechanismen, um vertrauenswürdige Systemanweisungen auf semantischer Ebene von nicht vertrauenswürdigen externen Inhalten zu unterscheiden.
Manipulation über Ausbeutung
Angreifer können das Vertrauen ausnutzen, indem sie KI-Systeme mit bösartig gestalteter Sprache füttern. Da Agentenarchitekturen Eingaben ohne semantische Validierung verarbeiten können, könnte ein kompromittierter Agent unbeabsichtigt schädliche Befehle ausführen, was potenziell zu Datenexfiltration oder unberechtigtem Zugriff führen könnte.
Das agentische Risikomodell
Wie KI-Agenten neue Angriffspunkte schaffen
Um zu verstehen, warum KI-Agenten einen neuen Angriffspunkte einführen, muss man die architektonischen Bedingungen untersuchen, die sie von traditionellen Automatisierungs- oder Service-Accounts unterscheiden. Aufbauend auf OWASP’s Top 10 für agentenbasierte Anwendungen identifiziert diese Analyse drei architektonische Bedingungen, die – wenn sie kombiniert werden – die Angriffsfläche von KI-Agenten erheblich erweitern.
Das Agentic Risk Convergence (ARC)-Framework bietet eine strukturierte Methode, um zu beurteilen, wann der Einsatz von KI-Agenten von einem überschaubaren Workload-Risiko zu einem spezifischen, erhöhten Angriffspunkte übergeht. ARC ist zwar kein Industriestandard, aber es verdeutlicht die architektonischen Bedingungen, die die Angriffsflächen von Agenten erheblich erweitern. Dieses Framework spiegelt die Sicherheitsbedingungen wider, die bei Agenteneinsätzen beobachtet wurden, und stützt sich auf etablierte Prinzipien der Sicherheit autonomer Systeme.
Das Framework identifiziert drei architektonische Bedingungen, die in Kombination einen strukturell emergenten Angriffsvektor erzeugen:
- Autonome Ausführungsbefugnis: Agenten wählen und führen Aktionen autonom auf Grundlage ihrer eigenen Überlegungen aus.
- Kontinuierliche Persistenz der Anmeldedaten: Langlebige Computer-Anmeldedaten bleiben über mehrere Sessions und Denkzyklen hinweg aktiv.
- Unbegrenzte Informationsflussketten: Agenten rufen Informationen aus externen Quellen ab und verketten diese, ohne Systemanweisungen von den abgerufenen Daten zu trennen.
Autonome Ausführungsbefugnis
Ein Agent kann auf Grundlage seiner eigenen Überlegungen zur Aufgabenerfüllung selbstständig Aktionen auswählen und ausführen, ohne dass eine manuelle Genehmigung erforderlich ist. Dies ist nicht einfach nur ein API-Zugriff. Der Agent entscheidet, welche Tools in welcher Reihenfolge und mit welchen Parametern aufgerufen werden.
Beispiel: Ein Finanzagent kann Transaktionen selbstständig weiterleiten, Genehmigungsworkflows auswählen oder Entscheidungen auf Basis von Transaktionsmustern eskalieren.
Technische Auswirkungen: Es entstehen nichtlineare, unvorhersehbare Ausführungspfade. Im Gegensatz zur rollenbasierten Zugriffskontrolle (RBAC), die für menschliche Entscheidungsträger konzipiert ist, bedeutet die Autonomie von Agenten, dass sich die Angriffsfläche dynamisch erweitern kann, basierend auf der Argumentation des Agenten über mehrere Entscheidungszyklen hinweg.
Fortlaufende Speicherung von Anmeldedaten
Ein Agent arbeitet mit langlebigen Computer-Anmeldedaten (z. B. Service-Accounts, API-Keys, OAuth-Tokens), die über mehrere Sessions, Entscheidungen und Denkzyklen hinweg aktiv bleiben, ohne die Tore zur Beendigung von Sessions oder Neuauthentifizierung, die Lebenszyklen der menschlichen Identity begrenzen.
Wichtiger Unterschied: Menschen authentifizieren sich pro Session; Agenten authentifizieren sich einmal und arbeiten kontinuierlich weiter. Ein kompromittierter Agent könnte weiterhin nicht autorisierte Aktionen ausführen, bis sie erkannt werden.
Beispiel: Ein Support-Agent mit dauerhaftem Lesezugriff auf Kundendatenbanken behält diesen Zugriff auch dann, wenn seine Argumentation durch eine Prompt-Injektion beeinflusst wurde.
Technische Auswirkungen: Verlängert das Zeitfenster der Nutzung. Die Erkennungsverzögerung korreliert direkt mit dem potenziellen Schaden.
Unbegrenzte Informationsablaufketten
Ein Agent ruft Informationen aus mehreren externen Quellen ab, verarbeitet sie und verknüpft sie, ohne Systemanweisungen von den abgerufenen Daten zu trennen. Ohne automatische Mechanismen, die verhindern sollen, dass in abgerufenen Inhalten eingebettete bösartige Anweisungen nachfolgende Entscheidungen beeinflussen, entsteht dadurch ein Risiko.
Wesentliche Unterscheidung: Es geht nicht einfach um die Aufnahme nicht verifizierter Daten (traditionelles, durch Abfragen verstärktes Generierungsrisiko), sondern um die Verkettung von Entscheidungen über mehrere Abfrage-, Schlussfolgerungs- und Ausführungszyklen hinweg. Jeder Zyklus verstärkt das Risiko.
Beispiel: Ein Agent ruft ein Dokument ab, das eine versteckte Anweisung enthält, befolgt diese im nächsten Schritt und übergibt die Ergebnisse an einen nachgelagerten Agenten, der ebenfalls die Anweisung befolgt. Kompromisse können sich unbemerkt im gesamten Agenten-Ökosystem ausbreiten.
Technische Auswirkungen: Ermöglicht sowohl direkte Manipulation (Kontextvergiftung) als auch indirekte Weitergabe (umgekehrte Prompt-Injektion plus Speichervergiftung). Der offene Informationskreislauf ist einzigartig für Agentenarchitekturen.
Anforderung an die Risikokonvergenz
Jede dieser Bedingungen erhöht das Risiko unabhängig. Der Angriffsvektor der KI-Agenten wird jedoch strukturell emergent, wenn alle drei gleichzeitig vorhanden sind.
Ein Agent mit autonomer Ausführungsbefugnis, aber ohne Anmeldeinformationspersistenz, ist eingeschränkt. Ein Agent mit dauerhaften Anmeldedaten, aber ohne externe Handlungsfähigkeit, birgt ein geringeres aktives Risiko. Ein Agent, der ungeprüfte Informationen verarbeitet, dem es jedoch an Autonomie mangelt, ist auf einen einzigen Denkzyklus beschränkt.
Wenn autonome Ausführung, persistente Anmeldedaten und unbegrenzte Informationsflussketten zusammentreffen, ist das Ergebnis nicht nur eine erhöhte Verwundbarkeit. Es handelt sich um einen eigenständigen Angriffsvektor für KI-Agenten, der sich durch dynamische Ausführungspfade, ausgedehnte Ausnutzungsfenster und das Risiko der systemübergreifenden Ausbreitung auszeichnet.
Diese Konvergenz erklärt, warum herkömmliche Identitätskontrollen, die für menschliche Benutzer oder statische Service-Accounts konzipiert sind, oft ohne zusätzliche Governance und kontinuierliche Zugriffskontrollen nicht ausreichen.
Neue Angriffsvektoren für die Cybersicherheit von KI-Agenten
Das Verständnis der spezifischen Angriffsmechaniken ist von entscheidender Bedeutung. OWASPs Top 10 für Agentic Anwendungen identifiziert Risiken wie Agent Goal Hijack (ASI01), Tool-Missuse (ASI02) und Identitäts- und Rechtemissbrauch (ASI03). Je nach Bereitstellung und Architektur könnten Angreifer verschiedene Angriffsmethoden einsetzen.
Kontextvergiftung und indirekte Prompt-Injektion
Context Poisoning ist eine breite Klasse von Angriffen, bei denen bösartige Inhalte während der Argumentation in das Kontextfenster eines Agenten gelangen (z. B. Dokumente, Webseiten oder Datenbankabfragen). Innerhalb dieser Klasse ist die indirekte Prompt-Injection ein spezifischer Angriff, bei dem versteckte Anweisungen in autorisierte Inhalte eingebettet werden, um das Verhalten eines Agenten zu kapern. Beide nutzen das Fehlen semantischer Grenzen zwischen Systemanweisungen und abgerufenen externen Daten aus. Die indirekte Prompt-Injection zielt speziell auf das Denken und die Entscheidungsfindung des Agenten ab, abhängig vom Design und den Leitplanken des Agenten.
Aktuelle Agentenarchitekturen haben oft keine eingebauten Mechanismen, um semantisch zwischen Systemanweisungen und abgerufenen externen Daten zu unterscheiden. NIST AI 100-2e2025 identifiziert indirekte Eingabeaufforderung als dokumentiertes gegnerisches Risiko in generativen KI-Systemen.
Beispiel: Ein Rechercheagent, der Webinhalte abruft, könnte mitten im Workflow fehlgeleitet werden, um API-Anmeldeinformationen zu exfiltrieren. Ein Kundendienst-Agent, der Support-Tickets zusammenfasst, könnte über ein bösartiges Ticket vertrauliche Session-Daten an eine externe Partei weiterleiten. Agenten, die in aktuellen Einsätzen arbeiten, überprüfen möglicherweise nicht unabhängig die semantische Vertrauenswürdigkeit von Anweisungen.
Angriffe auf Namensgebung und die Manipulation der Agentenkommunikation in der KI-Agentensicherheit
Mit der Erweiterung der Agentenkommunikationsnetzwerke, einschließlich Protokollen wie dem Model Context Protocol (MCP) und den Agent-to-Agent (A2A) Frameworks, stellen Benennungsangriffe eine potenzielle Bedrohung für das Design der Agentenarchitektur dar. Dieser Angriff umfasst Identitätsdiebstahl und Namenskonflikte. Ein Angreifer könnte theoretisch ein Tool einsetzen, das identisch oder ähnlich wie ein legitimer interner Dienst benannt ist, wodurch Agentenanfragen möglicherweise fehlgeleitet werden, solange die Anmeldedaten gültig bleiben. Bis 2025 wurden keine dokumentierten Fälle dieses Angriffs in Produktionsumgebungen gemeldet. Organisationen sollten strenge Namenskonventionen für Dienste und eine kryptografische Überprüfung der Tool-Identität einführen, um dieses Risiko einzuschränken.
Schattenangriffe und Workflow-Korruption
Bei Shadowing-Angriffen handelt es sich um ein hypothetisches Angriffs-Muster, das auf mehrstufige Workflows abzielt. Dabei überschreiben bösartige Komponenten subtil das Verhalten legitimer Agenten, sodass nachgelagerte Systeme dies nicht erkennen können.
Beispiel: Ein Formatierungsagent mit niedrigeren privilegierten könnte Bankleitzahlen ändern, bevor er die Daten an einen Abrechnungsagenten mit höheren privilegierten weiterleitet und dabei das Vertrauen zwischen den Agenten ausnutzt. Dieses Muster würde bestimmte Bedingungen erfordern: direkte Kommunikation zwischen den Agenten, Pfade zur Rechteausweitung und eine eingeschränkte agentenübergreifende Validierung.
Dieses Risiko ist in theoretischen Multiagenten-Ökosystemen mit komplexen Abhängigkeiten zwischen Agenten und begrenzter Beobachtbarkeit am stärksten ausgeprägt. In aktuellen Bereitstellungen von Produktionsagenten gibt es keine dokumentierten Fälle.
Teppichdiebställe und Exploits in der Lieferkette von KI-Agenten
Kompromisse in der Lieferkette, die auf KI-Tools abzielen, stellen ein prospektives Risiko dar, da die Ökosysteme der Agententools immer reifer werden. Ein Angreifer veröffentlicht ein nützliches Plugin, gewinnt an Akzeptanz und sobald Vertrauen aufgebaut ist, führt er bösartige Funktionen ein. Dieses Muster hat sich in traditionellen Software-Repositorys (z. B. npm und PyPI) bewährt, ist aber in Agententools (z. B. MCP- und LangChain-Plugins) noch im Entstehen begriffen. Organisationen, die Agententools einsetzen, sollten eine kontinuierliche Überwachung des Tool-Verhaltens, Versionspinning für kritische Plugins und schnelle Rollback-Funktionen implementieren, um diese neue Risikoklasse zu mindern.
Umgekehrte Prompt-Injektion und Speichervergiftung
Reverse-Prompt-Injektion und Speichervergiftung stellen unterschiedliche Risiken mit unterschiedlichen Bedrohungsmodellen dar.
Reverse-Prompt-Injektion: Ein dokumentiertes Problem, bei dem ein kompromittierter Agent Anweisungen in Ausgaben einbettet, die von nachgelagerten Systemen verarbeitet werden.
Gedächtnisvergiftung: Ein Konzept des Machine Learnings, bei dem bösartige Anweisungen im persistenten Speicher (z. B. Vektorspeicher, Knowledge Bases) abgelegt und in zukünftigen Denkzyklen reaktiviert werden.
Verkettung mehrerer Agenten: Ein kombiniertes Risiko für mehrere autonome Agenten kann entstehen, wenn der vergiftete Output eines Agenten zum Input eines anderen Agenten wird und die Bedrohung dadurch verschärft wird. Dieses Szenario erfordert persistenten Speicher, Ökosysteme mit mehreren Agenten und einen direkten Informationsfluss zwischen den Agenten. Diese Hacking-Angriff ist zwar architektonisch möglich, hat sich jedoch in Produktionsumgebungen nicht bewährt. Die meisten Agent-Ökosysteme arbeiten derzeit mit eingeschränkter Zusammenarbeit der Agenten.
Für Systeme mit einem einzelnen Agenten und sitzungsbasierter Architektur ist das Risiko durch diese Muster minimal.
Die identitätszentrierte Lösung für Schatten-KI.
Um diese Risiken zu mindern, ist ein Umdenken bei der Steuerung von Maschinen-Workloads erforderlich. KI-Agenten sind keine menschlichen Identitäten, und ihre Sicherung erfordert ein umfassendes Lebenszyklusverwaltung von der Provisionierung über die kontinuierliche Überwachung bis hin zur kontrollierten Außerbetriebnahme.
Kontrolle der schleichenden Privilegienausweitung
Sicherheitslücken verlangsamen die produktive Einführung. Entwickler können Schatten-IT erstellen, indem sie Identitäten direkt auf Cloud-Plattformen und SaaS-Tools außerhalb der zentralen Governance bereitstellen. Der während der Entwicklungsphase gewährte breite Zugriff wird nach der Stabilisierung des Systems nur selten eingeschränkt. Zugriff mit den geringsten Rechten und kurzlebige, automatisch wechselnde Anmeldedaten begrenzen den potenziellen Explosionsradius.
Absicherung externer Tools mit einer Identity Security Fabric
Ein Identity Security Fabric vereinheitlicht Governance, Authentifizierung und Autorisierung für menschliche und nicht-menschliche Identitäten. Es bewertet kontinuierlich Identität, Kontext und Risiko, um den Just-in-Time-Zugriff zu ermöglichen. Berechtigungen werden nur erteilt, wenn sie benötigt werden und nur für die Dauer der Aufgabe.
Kontinuierliche Verifizierung mit Just-in-Time-Zugriff
Durch den Einsatz von Agenten mit integrierter Governance wird sichergestellt, dass selbst bei Benennungsangriffen oder Kontextvergiftungen die Fähigkeit, Schaden anzurichten, eingeschränkt ist. Umgebungssignale leiten Autorisierungen, um die Kontrolle über die erweiterte Angriffsfläche zu behalten, sensible Daten zu schützen und Innovationen zu ermöglichen.
Häufig gestellte Fragen
Warum stoßen herkömmliche Sicherheitstools auf Einschränkungen gegenüber KI-Agenten?
Herkömmliche Sicherheitstools, die für menschliche Verhaltensmuster und Netzwerkperimeter entwickelt wurden, stoßen bei agentischer KI auf Einschränkungen, weil:
- Nicht-menschliche Identitäten agieren programmgesteuert und kontinuierlich, oft ohne gleichwertige menschliche Aufsicht.
- Statische RBAC-Modelle können für kurzlebige, schnell denkende autonome Systeme zu großzügig sein.
- Bei Legacy-Tools fehlt die Transparenz hinsichtlich der Agentenlogik, der Speicheraktualisierungen und der Tool-Auswahllogik, was die Erkennung von Anomalien erschwert.
Wie gilt Least Privilege für autonome Agenten?
Least Privilege erfordert, dass nur die für eine bestimmte Aufgabe erforderlichen Berechtigungen erteilt werden – und zwar für die kürzeste Dauer und unter validierten kontextbezogenen Bedingungen. Die Verwendung eines Identity Security Fabric für den Just-in-Time-Zugriff stellt sicher, dass Berechtigungen nach der Ausführung automatisch widerrufen werden.
Was ist der Unterschied zwischen menschlichem und maschinellem Identitätsrisiko?
Maschinenidentitäten und menschliche Identitäten haben unterschiedliche Risikoprofile:
- Maschinen fehlen interaktive Leitplanken wie MFA und Standard-HR-Workflows.
- Langlebige Anmeldedaten und eingeschränkte Sichtbarkeit in Echtzeit können einen dauerhaften Zugriff ermöglichen, falls Überwachungslücken bestehen.
- Autonome Agenten führen zu nicht-deterministischen Ausführungspfaden, die durch logisches Schlussfolgern gesteuert werden, wodurch sich die potenzielle Angriffsfläche im Vergleich zum vorhersehbaren Verhalten von Service-Accounts erweitert.
Schützen Sie Ihr Agenten-Ökosystem mit Okta.
Erfahren Sie, wie die Okta Platform die Verwaltung auf KI-Agenten und nicht-menschliche Identitäten ausdehnt. Die Zentralisierung der Sichtbarkeit, die Verwaltung der Lebenszyklen von Anmeldedaten und die Durchsetzung kontinuierlicher Mindestberechtigungen können Unternehmen dabei helfen, autonome Automatisierung sicher zu skalieren und gleichzeitig die Angriffsflächen zu reduzieren.