DAVID GEGEN GOLIATH

Der Ausdruck «David gegen Goliath» bezieht sich auf den Kampf zwischen einem scheinbar schwächeren und einem stärkeren Gegner. Zurück geht die Redewendung auf die biblische Geschichte im Alten Testament, in der der junge Hirte David, ohne ein Schwert in der Hand, den riesigen Krieger Goliath mit einer Schleuder und einem Stein besiegt. Die Geschichte wird metaphorisch verwendet, um ungleiche Kräfteverhältnisse zu beschreiben, wenn eine schwächere Partei erfolgreich gegen einen überlegenen, mächtigeren Gegner kämpft. Oft ist die Botschaft die Überwindung von scheinbar unüberwindbaren Hindernissen durch Entschlossenheit und Geschicklichkeit. Die Sympathien sind dabei klar verteilt. Sie gelten dem kleinen Einzelnen, der sich einem übergossen Gegenüber widersetzt.

Wer sich für die neusten Entwicklungen im Bereich der Künstliche Intelligenz (KI) interessiert, denkt in diesem Zusammenhang vielleicht an die neuste Klage der US-amerikanischen Tageszeitung «The New York Times» gegen Microsoft und Open AI, dem Softwareunternehmen, das sich seit Ende 2015 mit der Erforschung von künstlicher Intelligenz beschäftigt. Die öffentlich einsehbare Klageschrift betrifft vor allem, wie könnte es anders sein, die Vergütung von Artikeln, die beim Trainieren der Sprachmodelle von Chat-GPT verwendet werden. Um wie viel Geld es geht, ist unbekannt. Allerdings dürfte es deutlich mehr sein als das, was andere Medienverlage erhalten haben. Trotzdem ist die Klageschrift für den Rest der Medienwelt ein Glücksfall, denn sie verdeutlicht, wie wertvoll journalistische Inhalte für die Qualität der grossen Sprachmodelle sind.

Beim Streit zwischen der Firma Open AI und der «New York Times» sitzt vor allem das Technologieunternehmen Microsoft, stellvertretend für die anderen vier grossen Technologiefirmen Alphabet (Google), Amazon, Meta (Facebook) und Apple, auf der Anklagebank. Sie alle arbeiten an eigenen künstlich intelligenten Chatbots. Freilich ist Microsoft den anderen mit Chat-GPT für einmal einen Schritt voraus. Das Unternehmen hat 13 Milliarden Dollar in Open AI investiert und besitzt 49 Prozent der Anteile. Es sieht so aus, als ob sich die Investition rentiert. Open AI erzielt über eine Milliarde Dollar Umsatz pro Jahr mit Abonnementgebühren für die kostenpflichtige Version von Chat-GPT. Und die Gründer von Open AI haben sich verpflichtet, drei Viertel ihrer Gewinne an Microsoft zu überweisen, bis die anfängliche Investition abbezahlt ist. Allerdings profitiert Microsoft noch ganz anders von Chat-GPT. Die Sprachmodelle werden in veraltete Produkte wie Word, Outlook und sogar Bing, Microsofts bisher erfolglose Suchmaschine, integriert. Dank Chat-GPT können Outlook-Nutzer nun ihre E-Mails viel schneller bearbeiten, indem diese per Knopfdruck beantwortet werden. Im Schreibprogramm Word entstehen automatisch gut formulierte Projektberichte. Selbst Bing hat dank Chat-GPT endlich etwas Boden gegenüber Google gutgemacht, weil Suchergebnisse präzise zusammengefasst werden. Kein anderes Big-Tech-Unternehmen hat in der Folge mehr an Wert zugelegt als Microsoft. Der Firmenwert beträgt mittlerweile 2,8 Billionen Dollar, also mehr als das Dreifache des gesamten Bruttoinlandprodukts der Schweiz.

Um sich nochmals die Argumentation der «The New York Times» gegen Microsoft vor Augen zu führen, bedarf es der Klärung, womit sich die Sprachmodelle mästen. Im Falle von Chat-GPT ist es Common Crawl. Hierbei handelt es sich um eine Textsammlung von 250 Milliarden Websites, die mithilfe von automatisierten Computer-Scripts zusammenkopiert wurden. Jeden Monat kommen Texte von rund fünf Milliarden Websites neu hinzu. Auf Grundlage dieser riesigen Datenmenge hat Chat-GPT die Grundzüge des Schreibens so quasi oder sozusagen gelernt. Mit anderen Worten schreibt Chat-GPT nicht wirklich, es berechnet lediglich mithilfe komplexer Wahrscheinlichkeitsrechnungen, welches Wort auf das vorherige folgen könnte.

Damit das Modell möglichst gute Texte schreiben kann, benötigt das System Übung. Und hier kommen die Inhalte der «New York Times» oder anderer Medien ins Spiel. Deren Anwälte zeigen auf, dass journalistische Inhalte beim weiteren Training der Modelle von Chat-GPT stärker gewichtet werden als andere Texte, etwa Inhalte von sozialen Netzwerken oder aus Diskussionsforen. Das Anwaltsteam konnte Chat-GPT sogar ganze Absätze schreiben lassen, die identisch mit Texten der «New York Times» waren.

Um den Vorwurf der Urheberrechtsverletzung zu entkräften, wird Big Tech vor Gericht vermutlich darauf hinweisen, dass Chat-GPT und andere Chatbots den Nutzern weiterführende Internet-Links zur Verfügung stellen, um schneller zu den Texten zu gelangen, die von Menschen geschrieben wurden, ein Argument, das im Hinblick auf Suchmaschinen stichhaltig sein könnte. Ausserdem lesen Chatbots nicht wirklich. Sie behandeln Texte im Grunde genommen nicht als Texte. Um Wahrscheinlichkeitsberechnungen durchzuführen, werden Wörter und Buchstaben in Zahlen und Vektoren umgewandelt. Für die künstliche Intelligenz ist jeder Text also nur ein trockener Datensatz. Und Daten können urheberrechtlich nicht geschützt werden so wenig wie die Sprache selbst, weder in der Schweiz noch in der EU oder den USA. Hierfür spricht im Übrigen auch ein eigenes Beispiel der Textgenerierung.

Vor einem Jahr habe ich Chat-GPT die Aufforderung eingegeben: «Erzähle eine Geschichte, aus welcher hervorgeht, wie der Rabe zu seinem schwarzen Gefieder und der Papagei zu seinen buten Federn gekommen ist» (nachzulesen in meinem Blog «Ein Chatbot spaltet die Bildungswelt» vom 20. Januar 2023). Gestern habe ich die gleiche Aufforderung wiederholt und dann nochmals und nochmals. Jedes Mal habe ich eine andere Geschichte erhalten. Dann habe ich Chat-GPT gefragt, ob die Anzahl von Texten limitiert sei, die Chat-GPT bei der folgenden Eingabe generieren kann: «Erzähle eine Geschichte, aus welcher …». Und dann noch die Frage: «Warum generiert Chat-GPT jedes Mal eine andere Geschichte, wenn ich die folgende Aufgabe eingebe: «Erzähle eine Geschichte, aus welcher …». Chat-GPT hat sich selbst erklärt mit dem Hinweis, das System basiere auf einem neuronalen Netzwerk und verwende in bestimmten Situationen eine Art von Zufälligkeit, um Variationen in den generierten Texten zu erzeugen. Das bedeute, dass selbst bei identischen Eingaben Unterschiede in den Ausgaben auftreten können.

Christoph Frei, Akademisches Lektorat, CH-8032 Zürich

Bild:
Michelangelo Merisi da Caravaggio:
David mit dem Kopf von Goliath
Kunsthistorisches Museum, Wien