Vor zwei Wochen habe ich an dieser Stelle darüber geschrieben, wie schade es wäre, wenn ein immer weitergehender Einsatz von KI-Sprachmodellen dazu führen würde, dass wir unsere Freude an hochgradig seltenen weil realweltlich nur sehr begrenzt genutzten Ausdrücken, wie zum Beispiel “alter Remisenkater”, verlieren. Und Armin Nassehi hat daraufhin hervorgehoben, dass der wachsende Erfolg dieser Modelle eine Demütigung enthält: Nämlich wie berechenbar sprachliche Ereignisketten letztlich sind — und dass die Strategie, mit dieser Demütigung so umzugehen, dass man diesen Systemen ein Verständnis abspricht, letztendlich nicht greift. Denn “Verstehen” sei nicht viel mehr als “Überraschungsvermeidung in dynamischen, temporalisierten Systemen” und Bedeutung werde anhand ihrer wahrscheinlichen Bewährung in bestimmten Kontexten gelernt. Das bekommen KIs wie ChatGPT relativ problemlos hin, indem sie sprachliche Ereignisketten vervollständigen.
Die Frage, ob KI “wirklich” versteht, was sie macht, hat die KI bekanntlich schon lange begleitet. John Searles Gedankenexperiment des Chinesischen Zimmers von 1980, in dem er selbst sitzt und tabellarischen Regeln folgend so mit der Ausgabe von chinesischen Zeichen auf den Eingang chinesischer Zeichen reagiert, dass es fälschlicherweise so wirkt als verstünde er Chinesisch, ist hierbei mittlerweile ein Klassiker. Es hat zur Formulierung des sogenannten “Symbol Grounding Problems” in seiner starken Form geführt: Woher bekommen von KI genutzte Symbole ihre wirkliche/korrekte Bedeutung? Angesichts der Komplexität, Vielfalt und Heterogenität der Welt können solche Bedeutungen nicht händisch vom Programmierer vorgegeben werden. Das System muss vielmehr selbst die Welt in Konzepte einteilen, so wie es etwa tiefe neuronale Netze machen — und dabei einen Weg finden, die eigene Einteilung anhand ihrer Bewährung in verschiedensten Kontexten immer wieder abzugleichen.
Dieser fortwährende Abgleich ist damit zentral dafür, der KI den Besitz bedeutungstragender Konzepte zuzugestehen. Aber wie dieser Abgleich konkret stattzufinden hat, um zu echtem Verstehen zu führen, ist kontrovers. Ein Ansatz wäre, den Kontakt mit der realen, physischen Welt zu fordern, gemäß der Intuition, dass es diese physische Welt ist, die letztendlich über den Status von Fiktion und Wirklichkeit entscheidet. Das würde aber bedeuten, dass nur KI-Roboter wirklich verstehen könnten, worüber sie reden, und man Sprachmodellen wie GPT eine Form von Verkörperung verschaffen muss. Wenn man aber argumentiert, dass uns auch die reale Welt immer nur vermittelt anhand von Sinnesmustern gegeben ist, kann man den notwendigen Begriffs-Abgleich aber auch in einer virtuellen Welt stattfinden lassen, die solche Muster künstlich generiert. Das Erfolgskriterium des von der KI geschaffenen Weltmodells wäre dann dessen Adäquatheit im Vergleich zu diesen aus der simulierten Umgebung stammenden Mustern. Dabei ist naheliegend, dass das “Grounding” besser funktioniert, wenn mehrere Informationskanäle in die Umwelt existieren, etwa visuelle Daten, taktile Daten und Textdaten oder anders gesagt: Wenn das Modell multimodal ist.
Eine virtuelle Umgebung wäre auch das World Wide Web — die Grundlage der Weltmodelle der Großen Sprachmodelle. GPT-4 ist mit seiner Fähigkeit, Bilder und Videos als Input auszuwerten, sogar multimodal. In diesem Sinne gibt es gute Gründe, diesen Modellen tatsächlich Verständnis zuzugestehen, sofern man dieses eben genau an die Bewährung der eigenen Konzepte in verschiedenen Kontexten knüpft und nicht an unsere anthropomorph aufgeladene Alltagsverwendung, die wir kaum ohne ein existierendes Bewusstsein oder zumindest einen konsistente Überzeugungen besitzenden Agenten denken können.
Die Entwickler der Sprachmodelle sind zu dieser Frage übrigens selbst hochgradig unentschieden. In einer Befragung von knapp 500 “Natural Language Processing”-Experten im Mai und Juni 2022 antworteten 51 Prozent der Teilnehmer auf die Frage, ob Sprachmodelle Sprache verstehen können, mit “ja”. Multimodalen Modellen trauten das immerhin 67 Prozent der Befragten zu. Klar scheint mittlerweile: Man darf die Fähigkeit der Modelle nicht unterschätzen, indem man ihre erfolgreiche “Überraschungsvermeidung” mit einem zu niedrigschwellig definierten Verständnisbegriff assoziiert. Ihr Verhalten ist eben nicht nur bloße Mustervervollständigung nach dem Vorbild dessen, was sie in den Trainingsdaten gefunden haben, kein bloßes stochastisches Nachplappern. Vielmehr gibt es mittlerweile eine Reihe von Hinweisen, dass die Modelle interne Repräsentationen der Welt besitzen, die es ihnen ermöglichen, weit mehr vorherzusagen, als nur in den Trainingsdaten enthalten ist. Ihr Weltmodell enthält latente Dimensionen. Beispielsweise scheinen sie auf der Grundlage des per Eingabezeile bereitgestellten Kontextes einer Anfrage in der Lage zu sein, Wissen und Überzeugungen des Autors abzuleiten und diese für die Weiterführung der Anfrage zu nutzen. Sie scheinen sich Elemente des “gesunden Menschenverstands” anzueignen und komplexe Aufgaben in schrittweisen Gedankengängen lösen zu können. Natürlich gibt es gleichzeitig genügend Beispiele, bei denen all das nicht zu funktionieren scheint. Aber ich stimme Armin voll und ganz zu: Wer die Demütigung, die wir derzeit erfahren, einfach wegdiskutieren möchte, vermag das nicht mit allzu simplen Argumenten.
Sibylle Anderl, Montagsblock /218
24. April 2023