Was ist Datenvergiftung in KI?

Datenvergiftung ist eine neue Form der Cybersicherheitsbedrohung, die darauf abzielt, die Integrität von Machine-Learning- und KI-Systemen zu untergraben, indem die zum Training dieser Modelle verwendeten Daten absichtlich manipuliert werden.

Datenvergiftung bezeichnet also die gezielte Manipulation von Trainingsdaten, die zur Entwicklung von KI-Modellen verwendet werden. Durch das Einfügen verfälschter oder irreführender Informationen in diese Datensätze kann das Verhalten der trainierten KI-Systeme in unerwünschter Weise beeinflusst werden.

Zugegeben: auf Englisch klingt es fast “cooler”: Data Poisoning – aber was steckt hinter dieser “Datenvergiftung”? Eigentlich ist das Problem hausgemacht: wir benötigen immer mehr Daten, gute Daten, aber nicht immer sind diese verfügbar. Also crawlen gewissen Datenbroker und auch Trainingsmodelle das Internet. Und da fängt das Problem an.

Im Gegensatz zu anderen schädlichen Techniken, die das Modell während der Inferenz (z. B. Störung) angreifen, setzen Data Poisoning-Angriffe bereits in der Trainingsphase an.

Die Komplexität von Datenvergiftungsangriffen kann stark variieren. Bei sogenannten “Black-Box-Angriffen” benötigt der Angreifer keinerlei Kenntnisse über die interne Struktur des KI-Modells.

Im Gegensatz dazu verfügt der Angreifer bei “White-Box-Angriffen” über detailliertes Wissen bezüglich der Architektur und Trainingsparameter des Modells. Zu den gängigen Taktiken zählen Verfügbarkeitsangriffe, bei denen grosse Mengen verfälschter Daten in den Trainingsdatensatz eingeschleust werden, um die Gesamtleistung des KI-Systems zu beeinträchtigen.

Zielgruppenangriffe konzentrieren sich hingegen auf bestimmte Teilmengen des Trainingsdatensatzes, um das KI-Verhalten gegenüber spezifischen Gruppen zu manipulieren. Backdoor-Angriffe zielen darauf ab, Hintertüren in das KI-Modell einzuschleusen, die später von Angreifern unbemerkt ausgenutzt werden können.

Warum ist Datenvergiftung so gefährlich?

Die Auswirkungen von Datenvergiftungsangriffen können weitreichend sein. Durch das Training mit verfälschten Daten können KI-Systeme verzerrte, ungenaue oder sogar diskriminierende Ergebnisse liefern. In kritischen Bereichen wie Gesundheitswesen, Finanzen oder Verkehr kann dies zu schwerwiegenden Konsequenzen führen.

Data Poisoning ist, wie der Name schon sagt, eine absichtliche und böswillige Verunreinigung von Daten, um die Leistung von KI- und ML-Systemen zu beeinträchtigen.

Zudem besteht die Gefahr, dass Angreifer durch Datenvergiftung Hintertüren oder Schwachstellen in KI-Modelle einschleusen, die später für Sicherheitsverletzungen ausgenutzt werden können.

Wie können wir uns vor Datenvergiftung schützen? Um die Risiken von Datenvergiftungsangriffen zu minimieren, ist ein mehrschichtiger Ansatz erforderlich. Dazu gehören:

  • Sorgfältige Auswahl vertrauenswürdiger Datenquellen für das Training von KI-Modellen
  • Einsatz leistungsstarker Verifizierer und statistischer Methoden zur Erkennung von Datenanomalien
  • Kontinuierliche Überwachung der KI-Performance, um unerwartete Verhaltensänderungen frühzeitig zu erkennen
  • Implementierung robuster Sicherheitsmassnahmen zum Schutz der Trainingsdaten und KI-Modelle

Erschreckend einfache Durchführung

Wie oben erwähnt ist die Komplexität von Datenvergiftungsangriffen stark variierbar. Sogenannte “Black-Box-Angriffe” erfordern keinerlei Kenntnisse über die interne Struktur des KI-Modells, während bei “White-Box-Angriffen” der Angreifer detailliertes Wissen über die Architektur und Trainingsparameter besitzt. Zu den gängigen Taktiken zählen:

  • Verfügbarkeitsangriffe: Hierbei werden grosse Mengen verfälschter Daten in den Trainingsdatensatz eingeschleust, um die Gesamtleistung des KI-Systems zu beeinträchtigen.
  • Zielgruppenangriffe: Diese Angriffe konzentrieren sich auf bestimmte Teilmengen des Trainingsdatensatzes, um das KI-Verhalten gegenüber spezifischen Gruppen zu manipulieren.
  • Backdoor-Angriffe: Durch das Einschleusen von Hintertüren in das KI-Modell können Angreifer später unbemerkt Zugriff erlangen und das System kompromittieren.

Es liegt an allen Parteien: Forscher:Innen, Entwickler:Innen und politischen Entscheidungsträgern, die nachhaltige Vergübarkeit von “guten und sauberen” Daten als Herausforderung anzunehmen und gemeinsam Lösungen zu finden, um die Sicherheit von KI-Systemen langfristig zu gewährleisten.

Wie einfach lassen sich Datenvergiftungsangriffe durchführen?

Erschreckenderweise können die Methoden zur Durchführung von Datenvergiftungsangriffen überraschend kostengünstig und leicht zugänglich sein. Forscher haben gezeigt, dass böswillige Akteure bereits für nur 60 US-Dollar die Datensätze manipulieren können

Einer aktuellen Studie zufolge können die Methoden zur Durchführung von Datenvergiftungsangriffen überraschend kostengünstig und leicht zugänglich sein. Forscher haben gezeigt, dass böswillige Akteure bereits für nur 60 US-Dollar die Datensätze manipulieren können, auf die sich generative KI-Tools stützen.

Besonders perfode daran: Durch den Kauf abgelaufener Domains und deren Befüllung mit manipulierten Daten können Angreifer die von KI-Modellen verwendeten Trainingsdatensätze gezielt vergiften.

Eine kürzlich durchgeführte Studie ergab, dass Malware-Autoren für nur 60 US-Dollar absichtlich “vergiften” können die Daten, die AI-Chatbots verlassen. Die Methoden sind billig und einige erfordern nicht viel technisches Fachwissen.

Die Auswirkungen von Datenvergiftungsangriffen können gravierend sein. Durch das Training mit verfälschten Daten können KI-Systeme verzerrte, ungenaue oder sogar diskriminierende Ergebnisse liefern – weil wir unsere Large Language Models ja irgendwie füttern müssen. In kritischen Bereichen wie Gesundheitswesen, Finanzen oder Verkehr kann dies zu schwerwiegenden Konsequenzen führen.

Zudem besteht die Gefahr, dass Angreifer durch Datenvergiftung Hintertüren oder Schwachstellen in KI-Modelle einschleusen, die später für Sicherheitsverletzungen ausgenutzt werden können.

Um die Risiken von Datenvergiftungsangriffen zu minimieren, ist ein mehrschichtiger Ansatz erforderlich. Dazu gehört die sorgfältige Auswahl vertrauenswürdiger Datenquellen für das Training von KI-Modellen. Der Einsatz leistungsstarker Verifizierer und statistischer Methoden zur Erkennung von Datenanomalien ist ebenfalls unerlässlich.

Eine kontinuierliche Überwachung der KI-Performance ermöglicht es, unerwartete Verhaltensänderungen frühzeitig zu erkennen. Darüber hinaus ist die Implementierung robuster Sicherheitsmassnahmen zum Schutz der Trainingsdaten und KI-Modelle von entscheidender Bedeutung.

Eine Studie mit dem Titel “Size Matters: How Big Is Too Big for An LLM?” zeigt, dass LLMs in den letzten Jahren rasch an Größe zugenommen haben. GPT-1 wurde 2018 mit 117 Millionen Parametern veröffentlicht. GPT-4 wurde 2023 veröffentlicht und wird auf über eine Billion Parameter geschätzt. Dies ist eine ungefähre Verzehnfachung bis Verhundertfachung der Größe für jede neue Iteration von GPT.

Ansonsten ersticken wir am eigenen Gift. Sprichwörtlich, oder besser: Wort für Wort.

Willst du mehr wissen? Sehr gerne komme ich auch bei Dir, bei deiner Firma, deiner ERFA Gruppe oder deinem Verband vorbei und helfe mit einem Workshop oder Input Referat.

Lass uns gerne mal unverbindlich sprechen. Also wenn ich helfen kann, wende dich gerne an mich #fragRoger


Disclaimer: dieser Artikel wurde von mir geschrieben, mit Perplexity und dem LLM Claude3 recherchiert und mit Mistral Large sowie mit Deepl Write stellenweise verbessert und am Ende mit Claude3 Opus zusammen gefasst. Das Bild stammt von Ideogram und representiert das Thema. Ich erhebe keinen Anspruch auf Vollständigkeit oder kommerzielle Interessen. Diese Informationen sind rein edukativ.


Quellen:

[…] https://digitalcommons.lasalle.edu/cgi/viewcontent.cgi?article=1051&context=mathcompcapstones

[…] https://blogs.infosys.com/digital-experience/emerging-technologies/impacts-of-data-poisoning-in-ai.html

[…] https://securityintelligence.com/articles/data-poisoning-ai-and-machine-learning/

[…] https://www.cobalt.io/blog/data-poisoning-attacks-a-new-attack-vector-within-ai

[…] https://www.techtarget.com/searchsecurity/tip/How-data-poisoning-attacks-work

[…] https://www.technologyreview.com/2023/10/23/1082189/data-poisoning-artists-fight-generative-ai/

[…] https://www.forcepoint.com/blog/x-labs/data-poisoning-gen-ai

[…] https://fedtechmagazine.com/article/2024/01/unpacking-ai-data-poisoning

[…] https://www.techtarget.com/searchsecurity/tip/How-data-poisoning-attacks-work

[…] https://owasp.org/www-project-machine-learning-security-top-10/docs/ML02_2023-Data_Poisoning_Attack

[…] https://mathco.com/blog/data-poisoning-and-its-impact-on-the-ai-ecosystem/

[…] https://www.csoonline.com/article/570555/how-data-poisoning-attacks-corrupt-machine-learning-models.html

[…] https://www.businessinsider.com/data-poisoning-ai-chatbot-chatgpt-large-language-models-florain-tramer-2024-3

[…] https://towardsai.net/p/machine-learning/size-matters-how-big-is-too-big-for-an-llm