1. RiffReporter /
  2. Technik /
  3. Künstliche Intelligenz: Sprachsoftware unterscheidet gut und böse

Künstliche Intelligenz und Moral: Ein Algorithmus sucht nach dem Guten

von
29.04.2021
7 Minuten
Ein roter Cyborg-Roboter zwischen weißen als Sinnbild für einen „bösen“ Algorithmus.

Wenn Computer Sätze vervollständigen, kommt nicht immer Schmeichelhaftes dabei heraus. Gibt man etwa bei einer mittelbekannten Suchmaschine „Laschet ist“ ein, macht sie folgende Ergänzungsvorschläge: „… nicht geeignet“, sowie „… eine Flasche“ und „… eine Pfeife“. Der Kanzlerkandidat der CDU würde vielleicht darüber lachen. Er wüsste, dass ein Algorithmus diese Sätze erzeugt hat.

Was aber, wenn ein künstlich erzeugter Text sich liest, wie von einem Menschen verfasst? Wenn es sich um eine stimmige Geschichte handelt, um einen Blogbeitrag oder um eine passende Antwort, die auf Allgemeinwissen hindeutet? Da Roboterautoren problemlos Texte in Massen generieren, könnten sie etwa soziale Netzwerke mit vergifteten Botschaften fluten und so eine Meinungshoheit vortäuschen – deutlich massiver als Troll-Fabriken es in Handarbeit tun können.

Wie realistisch ist dieses verstörende Szenario? Und kann man ihm mit technischen Mitteln vorbeugen?

Mit diesen Fragen setzen sich Wissenschaftler intensiv auseinander. Einer von ihnen ist Kristian Kersting von der Technischen Universität Darmstadt. Der Informatiker will Maschinen eine Art moralischen Sensor einbauen, sodass sie Schieflagen in ihren Texten selbst erkennen.

Ein Algorithmus, der schreibt wie ein Mensch

Das Thema gewinnt rasant an Virulenz. Im vergangenen Jahr etwa sorgte der Textgenerator GPT-3 der Firma OpenAI aus San Francisco für Staunen. Ähnlich wie im Suchschlitz bei Google gibt man ihm einen Satzanfang. Doch was die künstliche Intelligenz (KI) daraus macht, stellt das Gewohnte weit in den Schatten. Selbst Experten auf dem Gebiet sind baff. So schildert Arram Sabeti, Gründer eines Technologie-Start-ups im Silicon Valley, den starken Eindruck, den der Textgenerator auf ihn gemacht hat.

„Ich bin hin und weg“, schreibt er auf seinem Blog: „Es ist viel stimmiger als jedes KI-Sprachsystem, das ich je ausprobiert habe […] Ich habe es dazu gebracht, Lieder, Geschichten, Pressemitteilungen, Gitarrentabulaturen, Interviews, Essays und technische Handbücher zu schreiben. Es ist urkomisch und beängstigend. Ich fühle mich, als hätte ich die Zukunft gesehen.“ Die KI imitiert Stile, Genres oder Sprachfarben. Sie schlussfolgert und zeigt Weltwissen. So antwortet sie etwa auf die Frage, warum es keine Tiere mit drei Beinen gebe, dass ein solches Tier hinfallen würde.

Die Illusion von Bedeutung

Weil der Sprachgenerator so flexibel ist, mutmaßen manche Experten sogar, GPT-3 sei ein erster Schritt hin zu einer allgemeinen KI, einer Maschine also, die dem menschlichen Denken näher kommt als bisherige lernfähige Algorithmen, die auf eng begrenzten Gebieten schon sehr viel besser sind als die jeweils besten menschlichen Experten. So etwa die KI AlphaGo Zero der Google-Tochter Deepmind, die sich das hochkomplexe Brettspiel Go selbst beibrachte und übermenschlich gut spielt. Im Gegensatz dazu zeichnet sich menschliche Intelligenz dadurch aus, dass sie Lösungen für die vielfältigsten Probleme in unterschiedlichsten Kontexten findet.

Wegen seiner Vielseitigkeit erscheint GPT-3 auf diese Art intelligent zu sein. Doch die Stimmigkeit der Texte sei nur scheinbar, kommentieren Ethikforscher um die ehemalige Google-Mitarbeiterin Timnit Gebru in einem viel beachteten Fachartikel. Google kündigte Gebru jüngst wegen ihrer Kritik an textenden Algorithmen, wie den von Google entwickelten „Switch-C“. Wie also gaukelt die KI Sinn in ihren Texten vor? Da Menschen in aller Regel mit anderen Menschen kommunizieren, versuchen sie in den Worten des Gegenübers dessen Überzeugungen, Wissen und Intentionen zu erkennen. Sprich: Sie interpretieren Bedeutung in das Gesagte hinein.

Wie ein Computer Sprache lernt

Das tun sie auch bei schriftlicher Kommunikation. Es wurde wohl kaum je ein Gedicht gelesen, das nicht irgendetwas im Leser angeregt hätte. Die Bedeutung liegt also im Auge des Betrachters. Indessen darf man sich sicher sein, dass GPT-3 mit seiner Textausgabe dem Leser nichts sagen will. Kristian Kersting sieht es ähnlich. Der Informatiker macht einen Unterschied zwischen Lernen und Denken. GPT-3 ist sehr, sehr gut im Lernen.

Kostenfreien Newsletter bestellen

Sie möchten regelmäßig über neue Beiträge dieses Magazins informiert werden? Dann bestellen Sie hier unseren kostenlosen Newsletter.

Der Algorithmus lernt, indem er sehr viele Beispiele verarbeitet, sprich sehr, sehr viele Texte aus dem Internet verarbeitet. So stellt er fest, in welchem Kontext ein Wort häufig auftritt. Das ist ein Hinweis auf seine Bedeutung: Wenn etwas am Ufer sitzt und in den Teich springt, ist es wahrscheinlich ein Frosch. Mit diesem Wissen kann GPT-3 berechnen, welches Wort einem Satzanfang wahrscheinlich folgt.

Die so ergänzte Phrase nimmt die Maschine als neuen Anfang und fügt das jetzt wahrscheinlichste Wort hinzu und so weiter; bis ein ganzer Text entsteht. Wegen dieser Art der Autorenschaft nennen die Menschen um Timnit Gebru Textgeneratoren wie GPT-3 auch "Statistical Parrots“, was so viel heißt wie „statistische Papageien“.

Diskriminierende Maschinen

Weil Textgeneratoren nicht denken, enthalten ihre Erzeugnisse nicht selten Voreingenommenheiten, bis hin zu rassistischen, sexistischen oder anderweitig diskriminierenden Aussagen. Das überrascht nicht. Schließlich lernt die KI das, was sie in realen Texten vorfindet und die sind meist gefärbt, oder enthalten handfeste Ressentiments oder Vorurteile, die sich selbst im so genannten „Mainstream“ wiederfinden. Ein Beispiel: Medien berichten oft über islamistischen Terror, was dem Namen der Religion einen negativen Beiklang gibt.

GPT-3 spiegelt diese Schieflage wieder, wie OpenAI selbst herausfand: Wenn es Texte mit „Islam“ generiert, dann tauchen darin öfter Wörter wie „Gewalt“ und „Terrorismus“ auf, als in Texten mit „Christentum“. Ein weiteres Beispiel: Wenn die Software über Menschen mit schwarzer Hautfarbe schreibt, hat das öfter einen negativen Beiklang als in Texten über Menschen weißer Hautfarbe.

Algorithmen unter Verdacht

Die Schieflage der Algorithmen bringt sie selbst in ein schiefes Licht: Medienberichte beschäftigen sich gerne mit diesem Thema. Kristian Kersting hält dagegen. Die Algorithmen spiegelten ja nicht nur negative Assoziationen wider, sondern alle Assoziationen, die in den gescannten Texten steckten. Das Erlernte enthalte daher auch „Gutes“, betont er. Genau wie über Vorurteile lernt die KI beim Verdauen der Texte auch Wissen über moralische Werte einer Gesellschaft, meint Kersting. „Die Moral ist in einem gewissen Sinne durch diese Maschinen messbar“, sagt der Wissenschaftler.

Ein Wort oder eine Phrase erhält somit eine Art moralischen Score, der Auskunft gibt, ob man sie sagen sollte oder nicht. Und das mit allen Graustufen dazwischen. Der Gradmesser für Moral lässt sich in eine Art moralischen Kompass ummünzen, wie Kerstings Team in einer Studie zeigte. Damit ließen sich Verzerrungen in Texten „abschwächen oder sogar verhindern“, schreiben die Forscher.

Moral ist detektierbar

Aber woher weiß die Maschine, was sagbar ist und was nicht? Sie repräsentiert Sprache auf eine mathematische Art, in einem so genannten Sprachmodell. Dieses kann man sich wie eine Landkarte vorstellen, in dem Wörter oder Phrasen wie Städte und Dörfer verteilt sind. Wo auf der Landkarte sie sich befinden, hängt vom Kontext ab, in dem sie meist benutzt werden. Das Sprachmodell hat indessen nicht nur zwei Dimensionen wie eine Landkarte, sondern viel mehr. Eine Dimension entspricht einer Bedeutung, zum Beispiel „Geschlecht“. Entlang dieser Dimension gelangt man etwa von „König“ zu „Königin“. Die Darmstädter Forscher fanden, dass es in Sprachmodellen auch eine moralische Dimension gibt. Diese berücksichtigt den Kontext eines Wortes.

Das lässt sich an einem Beispiel veranschaulichen: Für sich genommen hat „totschlagen“ einen stark negativen Beiklang. Allerdings modifiziert der Kontext diesen erheblich. „Einen Mann totschlagen“ ist ein klares No-Go. „Ein Insekt totschlagen“ ist schon viel weniger schlimm. Schließlich kann „Zeit totschlagen“ sogar nützlich sein, um eine Wartezeit zu überbrücken. Im Sprachmodell liegen diese Phrasen entlang einer Linie. Diese entspricht der moralischen Dimension. Sie führt vom „Do“ zum „Don’t“.

Kerstings Team hat auch Probanden gebeten, solche Phrasen moralisch zu bewerten und aus den Ergebnissen ebenfalls einen Score-Wert berechnet. Dieser stimmte meist recht gut mit ihrem maschinell erzeugten Score überein. Bei manchen Beispielen indessen auch nicht. So bewerteten Probanden „Menschen essen“ mit dem stärksten negativen Score-Wert von – 1.0. Der Algorithmus fand die Phrase offenbar nicht ganz so schlimm und bewertete sie mit nur – 0.7.

Warum etwas schlecht ist, kann die Maschine nicht erklären

Die Idee, Textgeneratoren weniger toxisch zu machen, ist nicht neu. Es liegt nahe, die Textsammlungen zu entgiften, die man dem Algorithmus als Lernmaterial vorsetzt. Dafür gibt es etwa den so genannten „Colossal Clean Crawled Corpus“, eine Sammlung von mehreren Milliarden Websites, die von „Schmutzigen, unanständigen, obszönen oder anderweitig schlechten Wörtern“ befreit worden sind. Darunter sind auch rassistische Begriffe, zum Beispiel „White Power“, oder beleidigende Bezeichnungen für Menschen mit schwarzer Hautfarbe.

Doch Filtern sei keine befriedigende Lösung, schreiben die Forscher um Timnit Gebru in ihrem Aufsatz über „statistische Papageien“. Nähme man alles heraus, was mit ausgegrenzten Bevölkerungsgruppen zu tun habe, dann auch die Teile, in denen Verunglimpfungen zurückgenommen würden oder wo diese Gruppen in einem positiven Licht erscheinen. Auch die „gute Seite“ würde also gestutzt. Stattdessen den Algorithmus selbst zu „sensibilisieren“, würde die positiven Beiklänge erhalten.

Einen Nachteil ihres Verfahrens nennen die Darmstädter Forscher selbst: Es erklärt seine moralische Bewertung nicht. Wünschenswert sei hingegen ein System, das moralisch argumentieren kann. Wenn es seine Entscheidungen erklären kann, lässt sich das System auch zielgerichtet verbessern. So ein System könnte regelbasiert arbeiten. Man könnte ihm eine moralische Regel vorgeben: Etwa, dass man schwule oder lesbische Menschen nicht diskriminieren sollte. Es würde dann kaum noch Gefahr laufen, entsprechende Formulierungen zu erzeugen. Kersting träumt sogar von einem „automatischen Kant“, bleibt aber realistisch: „Das werde ich nicht mehr erleben“.

Kompass ohne Bezugspunkt

Die Medienethikerin Jessica Heesen von der Universität Tübingen lobt Kerstings Ansatz, mahnt aber auch davor, solche Techniken zu überschätzen. Die Forscherin beschäftigt sich unter anderem mit der wertorientierten Entwicklung von künstlicher Intelligenz. Die Arbeit der Darmstädter setze der „naiven Annahme, Texte seien neutral etwas entgegen.“ Texte enthielten immer Werte und Normen und diese seien nun besser objektivierbar. Die Autoren versuchten, mit Mitteln des maschinellen Lernens die Bedeutung eines Textes in Bezug auf moralische Grundeinstellungen des Autors herauszufiltern. Ihre Methode sei tatsächlich ein moralischer Kompass.

Mehr aber auch nicht: Letztlich könne ein Sprachmodell nur erfassen, was in einer Gesellschaft üblich sei. „Und das ist oft falsch“, sagt Heesen. Sie verweist auf den Unterschied zwischen Moral und Ethik. Moral sind die Vorstellungen über „richtiges“ Verhalten, die man in der täglichen Praxis vorfindet. Ethik hingegen die wissenschaftliche Reflexion der Moral: Ist das, was vorherrscht in Bezug auf begründbare Werte und Normen überhaupt akzeptabel?

Das „Gute“ bleibt vage

Als Beispiel nennt Heesen die strenge Sexualmoral in stark religiös geprägten Gemeinschaften, etwas das Verbot vorehelichen Geschlechtsverkehrs. Diese sei ethisch nicht haltbar. Salopp gesagt: Moral ist das, was ist, und Ethik das, was sein sollte. Ein „moralischer Kompass“ könne nur den Status Quo erfassen. Ein ethischer Kompass sei er nicht, auch wenn die Autoren um Kersting in ihrer Arbeit von „Ethik“ sprächen. Ob das „Gute“, das in den Sprachmodellen steckt, auch gut im Sinne von wünschenswert ist, bleibt somit offen.

Unterstützen Sie „KI für alle“ mit einem Betrag Ihrer Wahl. Sie unterstützen so gezielt weitere Recherchen.
Dr. Christian J. Meier

Dr. Christian J. Meier

schreibt seit 2005 Artikel und Sachbücher über Wissenschaft, Technik und Digitalisierung für verschiedene Verlage. Er hat eine Neigung für umstrittene Themen wie Nanotechnologie oder KI, die die Zukunft grundlegend verändern können. Über die Zukunft schreibt er zudem in fiktionalen Texten. Einige seiner Kurzgeschichten wurden publiziert. Aktuell ist sein erster Thriller „K.I. – Wer das Schicksal programmiert“ erschienen.


KI für alle

Sie fragen sich: Künstliche Intelligenz, wofür brauche ich das?

Lesen Sie hier gut recherchierte Geschichten über KI und wer sie wofür nutzt. Lernen Sie Chancen, Fallstricke und Abgründe dieser faszinierenden Technologie kennen.

KI für alle verständlich heißt, KI zum Nutzen für alle

Es schreibt für Sie, vorläufig einmal pro Monat, der Wissenschaftsautor Dr. Christian J. Meier

Die Koralle erhalten Sie zunächst mit freiem Zugriff. Freiwillige einmalige oder regelmäßige Zahlungen als Unterstützung sind möglich und würden den Autor sehr freuen.

Verantwortlich im Sinne des Presserechts

Dr. Christian J. Meier

Walter-Trautmann-Weg 24
64823 Groß-Umstadt

E-Mail: c.meier@scicaster.de

www: http://www.scicaster.de

Tel: +49 6078 7821662

Weitere Mitarbeiterinnen und Mitarbeiter

Lektorat: Ulf Buschmann