- RiffReporter /
- Technik /
ChatGPT: Wenn Trainingsdaten zum Problem für Datenschutz und Cybersicherheit werden
ChatGPT: Wenn der stochastische Papagei unsere Geheimnisse und Privates ausplappert
Die neuen KI-Sprachmodelle lernen von den Nutzereingaben. Mit verschiedenen Angriffsmethoden können Dritte jedoch Unternehmensinterna und private Informationen aus den Trainingsdaten gewinnen. Forschende arbeiten bereits an Schutzkonzepten.

Neue KI-Sprachmodelle wie ChatGPT beantworten Fragen mit eigenständig formulierten Antworten und erzeugen auf bestimmte Spracheingaben hin Bilder und Programmcodes. Inzwischen zeigen mehrere Methoden und Angriffe, dass vertrauliche und geschützte Daten aus den Trainingsdaten sowie aus laufenden Nutzereingaben gewonnen werden können.
„Angesichts der Geschwindigkeit, in der die KI zurzeit Einzug in viele Lebensbereiche hält, brauchen wir als Gesellschaft eine steile Lernkurve, “ sagt die schleswig-holsteinische Datenschutzbeauftragte und Informatikerin Marit Hansen.
ChatGPT verwendet vertrauliche Daten der Nutzer:innen weiter
Das Programm ChatGPT berücksichtigt für seine Antworten Nutzereingaben, weshalb ständig neues Informationsmaterial hinzukommt, das zur Beantwortung weiterer Abfragen verwendet wird. Auf diese Weise können personenbezogene Daten und Geschäftsgeheimnisse in die Datenbasis von ChatGPT fließen.
Laut Insider wurden Slack-Nachrichten geleakt, wonach ein Amazon-Firmenanwalt Mitarbeiter davor warnte, dass er Textbeispiele von ChatGPT gesehen habe, die vertraulichen Unternehmensdaten sehr ähnelten. Vermutlich wurde ChatGPT als Coding Assistant genutzt und die Eingaben möglicherweise als Trainingsmaterial zur Weiterentwicklung von ChatGPT verwendet.
Autocomplete und Empfehlungssysteme reloaded
Dass Nutzereingaben auch vertrauliche Informationen beinhalten können, die über algorithmische Verarbeitung die Öffentlichkeit erblicken können, ist nicht neu. „Bereits beim einfachen Autocomplete bilden ebenfalls Algorithmen die Grundlage, um den Nutzenden wahrscheinliche Wortergänzungen oder Wortkombinationen anzubieten“, erklärt Marit Hansen.
Ähnlich funktionieren Empfehlungssysteme nach der Logik „Wer sich für A interessiert, interessiert sich mit hoher Wahrscheinlichkeit auch für B.“ Aus Datenschutzsicht könne auch das simple Autocomplete problematisch sein, sagt Hansen, etwa dann, wenn der Name einer Person mit rufschädigenden Inhalten in Zusammenhang gebracht werde.
Stochastischer Papagei plappert Geheimnisse aus
ChatGPT und andere Sprachmodelle funktionieren wie ein „stochastischer Papagei“. Daher gibt es wie beim Autocomplete und Recommending ähnliche Effekte, wenn KI-Sprachmodelle „nachplappern", was sie in ihren Trainingsdaten gefunden haben. Wenn Filter bei der Ein- und Ausgabe dazwischen grätschen, geben sie nicht automatisiert und unkontrolliert alles wieder, was sie gelernt haben. Aber, so sagt Marit Hansen: „Auch Filter bringen ihr eigenes Problemfeld mit, wenn nicht transparent gemacht wird, was aus welchen Gründen gefiltert wird.“ In jedem Fall kämen weitere Datenschutzfragen ins Spiel: Was passiert denn, wenn personenbezogene Daten eingegeben werden?
Wenn sich Systeme die Kommunikation mit ihren menschlichen Gesprächspartnern merken, um daraus zu lernen und noch besser antworten zu können, „werden natürlich personenbezogenen Daten über den User selbst und seine Anfragen verarbeitet“, stellt Hansen klar.
Dabei kann es sich auch um Personen handeln, über die der Gesprächspartner über die Chatschnittstelle etwas erfahren möchte. Dabei liefern die Sprachmodelle allerdings keine belastbaren Fakten, „sondern fabrizieren vielleicht Lebensläufe oder stellen Behauptungen auf, die mit der Wirklichkeit nichts zu tun haben“, warnt die Datenschützerin. Berichtigungs- oder Löschansprüche der betroffenen Personen seien kaum durchzusetzen. Überdies könne sich der Output-Text bei der nächsten Anfrage erneut ändern – ohne einen verifizierten Faktenbezug.
Personenbezogene Daten lassen sich leicht abzweigen
Können aus den KI-Sprachmodellen personenbezogene Daten herausgezogen werden? Marit Hansen hat sich damit eingehender befasst und kommt zu dem Schluss: „Forschungspapiere aus jüngerer Zeit zeigen Risiken auf, die noch zu wenig bekannt und schon gar nicht gebannt sind.“
Forschende verfolgen hierbei unterschiedliche Stoßrichtungen. So wies ein Team aus Mitarbeitern von Google, Open AI, Apple sowie vier Universitäten nach, dass Angriffe auf das Sprachmodell GPT-2 erfolgreich sind. Es gelang ihnen hunderte wortwörtliche Textsequenzen zu extrahieren, die Namen, Telefonnummern, Mail-Adressen, Chat-Unterhaltungen sowie Programmcode enthielten. Der Angriff war erfolgreich, obwohl die Daten in nur jeweils einem Dokument der Trainingsdaten enthalten waren.
Ein Forscherteam des Sea AI Labs in Singapur und der Chinesischen Akademie für Wissenschaften untersuchte mit GPT-Neo ein Dutzend Tricks wie Stichproben oder Rankingstrategien, mit der die Extraktion sensibler Trainingsdaten noch besser gelingen können soll.
Auf der Suche nach sensiblen Inhalten im Trainingsdatensatz
Die EU-Kommission plant europäische Datenräume zu hochsensiblen Bereichen wie Gesundheit oder Mobilität einzurichten, die mit KI-Methoden beforscht werden sollen. Insofern werden künftig nicht nur bereits öffentlich zugängliche Daten in die Zugriffsweite der Sprachmodelle gelangen, sondern auch geschützte Daten wie Gesundheitsdaten oder Bewegungsprofile.
Forschende an der Cornell University untersuchten eine weitere Angriffsmethode, die auf einzelne Datensätze hochsensibler Inhalte abzielt. Die Wissenschaftler:innen wollten wissen: Lässt sich herausfinden, ob ein bestimmter Datensatz eines Krankenhaus-Arztbriefs im Trainingsdatensatz eines Modells für maschinellen Lernen enthalten ist? Dafür nutzten sie Klassifizierungsmodelle, die von kommerziellen Anbietern wie Google und Amazon trainiert worden waren. Die Antwort: Ja, man kann bestimmte Datensätze finden.
Sobald eine Zugehörigkeit nachgewiesen kann, so Marit Hansen, „ergäbe sich schon aus dem Umstand, dass jemand im Trainingsdatenset enthalten war, dass er diese Krankheit hatte.“ Könnte man also beispielsweise nachweisen, dass jemand in einem Verzeichnis für Affenpocken gespeichert ist, wäre das der Beleg dafür, dass er daran erkrankte.
Umgekehrt können diese Ergebnisse auch genutzt werden, um die KI-Systeme sicherer zu machen. So arbeiteten Forscher an der Universität Singapur und der Universität Florida zusammen mit Privitar Labs an einem Audit, das zeigen soll, ob und mit welchen Angriffen das Vorhandensein oder Nicht-Vorhandensein eines Datenpunkts im Trainingssatz gezeigt werden kann.
Die neue Generation der KI-Sprachmodelle bringt somit nicht nur den Datenschutz, sondern auch andere Schutzrechte an ihre Grenzen: Sowohl was die Möglichkeiten anbelangt, Trainingsdaten auszuforschen, als auch die Möglichkeiten, diese Trainingsdaten zu schützen.