Hacker mit Stil: Programmierer sind auch nur Autoren

Coder kann man an ihrem Schreibstil genauso gut erkennen wie Autoren von Romanen. Das machen sich jetzt auch Geheimdienste zunutze

In Fort Meade, dem Hauptquartier des technischen Geheimdienstes der USA, wird viel gelesen. Und so verfolgten die dort beschäftigten Computerlinguisten aufmerksam den Streit um die Autorenschaft des Romans „Der Ruf des Kuckucks“.

Robert Galbraith sollte den Roman geschrieben haben. Doch es gab Zweifel an der Urheberschaft. Eine genaue Analyse des Schreibstils ergab schließlich, dass der Text von der Struktur her große Ähnlichkeiten zu den Harry-​Potter-Romanen aufwies. Und tatsächlich stellte sich heraus, dass Harry-​Potter-Autorin Joanne K. Rowling den Roman unter dem Pseudonym Robert Galbraith veröffentlicht hatte.

Es begann mit Harry Potter

Die Literaturwissenschaftler hatten das mit sogenannten stilometrischen Methoden herausgefunden. „Autoren können identifiziert werden, in dem die Struktur ihres Textes du ihre individuelle Ausdrucksformen mathematisch exakt analysiert werden“, erläutert Computerwissenschaftlerin Aylin Caliska-​Islam, die sich seit ihrer Dissertation mit der Frage beschäftigt, wie Softwareentwickler anhand ihres Programmierstils identifiziert werden können.

Eingesetzt werden dafür Algorithmen maschinellen Lernens und der Mustererkennung. Diese stilometrische Analysesoftware wird mit vielen Quelltexten von Computerprogrammen trainiert. Die sind in einer sogenannten Hochsprache verfasst.

Ähnlich wie ein Romanautor seinen Text in deutscher oder englischer Sprache schreibt, schreibt ein Softwareentwickler seinen Programmtext in C++, Java oder PHP. „Weil wir wissen, dass Programmieren genauso gelernt wird wie Sprachen, können wir die stilometrischen Methoden zur Identifizierung eines Autors auch nutzen, um herauszufinden, wer ein bestimmtes Programm geschrieben hat“, berichtet Aylin Caliska-​Islam.

Programmieren lernen läuft wie Sprachen lernen

Die Art, Klammern zu setzen, Variablennamen zu vergeben, Leerzeichen einzufügen und die Struktur, die ein Programm-​Quelltext aufweist, geben dabei den einzigartigen Stil eines Programmierers wieder. Allerdings kann der Programmierer nur dann identifiziert werden, wenn bereits bekannte Programme von ihm vorliegen.

Anonym verfasste Programme werden nämlich von der Stilometrie-​Software auf Ähnlichkeiten zu Schreibstilen bekannter Programmierer untersucht. Die Quelltexte werden einfach abgeglichen. Je besser die Datengrundlage ist, auf der Programmierstile verglichen werden, umso größer ist die Wahrscheinlichkeit, dass der Programmierer einer bestimmten Software identifiziert werden kann.

Die Wahrscheinlichkeitswerte schwanken da ein wenig. Mit der Anzahl der Quelltexte steigt die Ermittlungswahrscheinlichkeit. Bei kommerziell verwendeter Software kann der Autor eines Programms in 92 von 100 Fällen auf diese Weise ermittelt werden. Bei Schadsoftware wie Computerviren ist das in weniger als zehn von 100 Fällen möglich.

Vergleichbare Quelltexte müssen her

Deshalb legen die Ermittlungsexperten der NSA große Wert darauf, vergleichbare Datenproben zu bekommen. Und das funktioniert am besten mit Quelltexten, die im Rahmen von Programmierwettbewerben geschrieben worden sind.

Denn da entwickelt jeder Programmierer seine Lösung für dasselbe Problem, an dem auch mehrere Dutzend anderer Entwickler arbeiten. Die Datengrundlage ist also extrem gut vergleichbar.

Um so stärker treten vor dieser vergleichbaren Datengrundlage die einzelnen Programmierstile der Entwickler hervor und heben sich viel stärker voneinander ab. Deshalb bemühen sich die NSA-​Verantwortlichen, möglichst viele Arbeiten aus Programmierwettbewerben in ihre Stilometrie-​Datenbank zur Identifizierung von Programmierern zu speichern.

NSA sammelt für die Stildatenbank

Mit einem zweistelligen Millionenbetrag pro Jahr erfasst die NSA flächendeckend Arbeitsproben von Programmierern in ihrer Stilometrie-​Datenbank. Deshalb finanziert der technische Geheimdienst der USA großzügig Programmierwettbewerbe, deren Ergebnisse die NSA verwerten darf.

Die Schlapphüte veranstalten eigene Summer Schools fürs Programmieren, mit denen sie vor allen Dingen junge Informatiker ansprechen wollen. Mit Barcamps, die im Umfeld von Hackerveranstaltungen wie der Black Hat Conference veranstaltet werden, wollen die NSA-​Verantwortlichen Quelltexte von bisher unbekannten Hackern für ihre Datenbank ergattern.

Auch Computerviren haben Stil

Bei Schadsoftware wie Computerviren legen deren Autoren Wert darauf, nicht identifiziert werden zu können. Zwar zeichnen sie ihre Werke nicht selten mit einem Pseudonym. Aber sie wollen ihre wahre Identität dennoch verschleiern.

Die Militärs des amerikanischen Cyber Command wollen aber genau ermitteln, welcher Programmierer mit welchem Namen und vor allen Dingen welcher Nationalität eine bestimmte Angriffssoftware geschrieben hat, um ihm und seinem Land dann auch die Verantwortung zuweisen zu können. Letztlich sollen damit militärische Schläge gegen identifizierte Cyber-​Angreifer gerechtfertigt werden.

Nun werden aber russische oder chinesische Autoren von Schadsoftware nicht unbedingt an Programmierwettbewerben teilgenommen haben, auf die US-​Sicherheitsbehörden direkten Zugriff haben. Deshalb investieren die NSA-​Spezialisten sehr viel Geld, um Informanten ausfindig zu machen, die die Identität von bekannten Virenautoren oder Entwicklern anderer Schadsoftware lüften können. Dazu zählen auch Geldzahlungen an Informatik-​Professoren und Dozenten, die dafür Arbeitsproben ihrer Studenten liefern.

Rückwärtsentwicklung hilft mitunter

Nicht immer liegen die Quellcodes von Computerprogrammen vor, häufig nur die maschinenlesbaren Versionen. Wenn die NSA-​Stilexperten partout nicht an den Quelltext einer Software gelangen können, dann setzen sie Software für das sogenannte Reverse Engineering ein.

Dabei wird ein maschinenlesbares Programm wieder in den hochsprachlichen Quelltext zurückübersetzt. Zumindest die Struktur eins solchen Programms bietet dann immer noch Vergleichsansätze für die stilometrische Analyse. Die Ermittlungsquoten sind hier allerdings nicht so hoch wie bei originäre vorliegenden Quelltexten.

Natürlich haben Softwareentwickler auch Werkzeuge entwickelt, um Ihren Programmierstil zu verschleiern. Diese Tools werden auch „Obfuscation-​Software“ genannt. So können zum Beispiel von einem Programmierer gern genutzte Variablennamen durch andere Namen ersetzt werden, um die Ermittler auf eine falsche Fährte zu führen.

Auch Klammerfunktionen lassen sich leicht nachträglich abändern. Dafür ist inzwischen eine ganze Reihe von kommerzieller Obfuscation-​Software erhältlich. Schwieriger wird die Verschleierung allerdings , wenn es um die Struktur eines Programmes und um die Grammatik der Quelltexte geht. Da versagen die kommerziell erhältlichen Programme meist noch vollständig.

Allerdings soll der israelische Geheimdienst Mossad bei der Entwicklung der Schadsoftware Stuxnet zur Schädigung iranischer Atomanlagen eine eigens entwickelte Obfuscation-​Software eingesetzt haben, mit der die Programmierer der Softwareroutinen alle denselben Programmierstil nachträglich übergestülpt bekamen.

  1. Digitalisierung
  2. Überwachung

Wenn das Passfoto die Videoüberwachung in die Irre führt

Der Bundestag beschließt ein neues Ausweisgesetz. Doch das lässt Lücken für Bildmanipulationen, mit denen Überwachungskameras ausgetrickst werden können.

  1. Bildung
  2. Digitalisierung

Internet für Schüler: Die verwirrende Flatrate der Telekom

Das Unternehmen kündigt einen "Education-Tarif" für 10 Euro an: Das von Bund und Ländern versprochene günstige Bildungs-Internet für alle Schülerinnen und Schüler? Eine Spurensuche.

Das Bild zeigt die ausgestreckten Arme einer Frau, die einen Laptop-Computer halten. Es sieht aus, als würde ein Geschenk überreicht.
  1. Digitalisierung
  2. Klimakrise
  3. Kreislaufwirtschaft
  4. Transformation
  5. Wirtschaft

Open Economy

Commons-Projekte weisen den Weg in eine Gemeinwohl-orientierte Wirtschaft

Bild einer Siedlung in Vancouver.
  1. Corona-global
  2. Digitalisierung
  3. Tunesien

Das Coronavirus als Digitalbotschafter

Der tunesische Verwaltungsapparat ist aufgebläht und ineffizient. Doch seit Beginn der Coronakrise erlebt er eine Digitalisierung, die vorher kaum vorstellbar war. Der ehemalige Minister für Digitalwirtschaft hofft, dass der Druck diesmal groß genug ist, Ernst zu machen.

  1. Digitalisierung
  2. Energieeffizienz
  3. Klimakrise

Wie die Digitalisierung die Klimakrise anheizt

Digitale Technologien haben inzwischen einen größeren CO2-Fußabdruck als das Fliegen. Und ihr Energieverbrauch steigt weiter rasant.

Blick in einen Serverraum
  1. Biodiversität
  2. Digitalisierung
  3. Forschung
  4. Klimakrise

Hallo Erde, wie geht es dir?

Twitter und Facebook geben sekündlich Auskunft über das menschliche Befinden. Aber wann gibt es auch ein smartes Netzwerk, das etwas über den Zustand unserer Erde sagen könnte?

Winde drücken sich auf den Ozean, um Oberflächenströmungen zu erzeugen, wie ein von der NASA vor der Küste Floridas erzeugtes Bild zeigt.
  1. Digitalisierung
  2. Podcast

Hören ist das neue Sehen

Viele Museen bieten digitale Formate an, um das Publikum für ihre Sammlungen und Ausstellungen zu begeistern. Jetzt ist der Podcast im Vormarsch.

Werbegrafik zur Ankündigung des van Gogh-Podcasts unter Verwendung eines Gemäldes. Es zeigt einen an einem Tisch sitzenden Mann mit aufgestütztem Arm.
  1. Digitalisierung
  2. Gamification
  3. Partizipation

Escape Rooms im Museum?

Das Badische Landesmuseum (BLM) in Karlsruhe ist auf bestem Weg zum Vorreiter im Feld der Digitalisierung zu werden. Dabei geht es nicht allein um eine online aufrufbare Sammlung. Ein Gespräch mit Johannes Bernhardt, Leiter des Projekts "Creative Collections".

Blick auf das Display eines Smartphones, das auf ausgestellte Gefäße aus der Ur- und Frühgeschichte gerichtet ist.
  1. Bildung
  2. Digitalisierung

Digitalpakt: FDP sieht Finanzierungslücke

Die Versteigerung der 5G-Erlöse habe nicht genug eingebracht, sagt der liberale Haushaltspolitiker Christoph Meyer. Was sagt Finanzminister Olaf Scholz? Von Jan Martin Wiarda

Schüler mit Tablet
  1. Digitalisierung
  2. Gesellschaft
  3. Zukunft

Abgehängt

Mehr als zwei Millionen Deutsche werden bei der Digitalisierung ausgeschlossen. Caritas-Präsident Neher fordert, dass jeder Mensch ein Recht auf Teilhabe haben muss.

Digitalisierung ist nicht für alle Menschen möglich. Diese Frau kommt mit dem Gerät nicht zurecht, anderen fehlt das Geld für die Anschaffung.
Flatrate ab 8 € RiffReporter unterstützen