Montagsblock /227

Sam Altman, Elon Musk, Yan LeCun, Gary Markus, Geoffrey Hinton – es fällt schon auf, wie sehr die öffentliche Diskussion der Gefahren und Möglichkeiten der Künstlichen Intelligenz durch Männer geprägt ist. Völlig überraschend ist das nicht. Das Feld ist schließlich ein klassisch männliches. 2022 lag der Frauenanteil bei den Informatikabschlüssen in Deutschland bei 22,2 Prozent. Wenn man außerdem berücksichtigt, dass Frauen oftmals dazu neigen, sich aus aggressiven und meinungsgetriebenen Debatten eher herauszuhalten, wirkt das öffentliche Ungleichgewicht durchaus plausibel. Insofern ist es vielleicht bemerkenswert, dass bei der CVPR, der jährlichen Conference on Computer Vision and Pattern Recognition die vergangene Woche in Vancouver stattfand, die zentrale Keynote zu Sprachmodellen von Yejin Choi gehalten wurde, Informatikprofessorin an der University of Washington – zumal es die Keynote war, die wohl am meisten zum Diskutieren und Nachdenken anregte.

Unter dem Titel „An AI Odyssey: The Dark Matter of Intelligence“ präsentierte sie eine Reihe „möglicher Unmöglichkeiten“ als Reaktion auf die immer wieder zu hörende These, es gebe für die großen Sprachmodelle keine fundamentalen „Impossibilities“, also kaum etwas, das für die nächsten noch größeren Versionen unerreichbar sein wird. Choi teilt solch unkritischen Optimismus nicht. Denn ihren Studien zufolge scheitern aktuelle Sprachmodelle an Aufgaben, die für uns Menschen erstaunlich trivial wirken – und zwar womöglich aus systematischen Gründen.

Ihr erstes Beispiel, über das sie und ihr Team Anfang Juni ein Paper auf arXiv veröffentlicht hat, betrifft die Multiplikation großer Zahlen. GPT4 als neuestes Modell der OpenAI-Familie hat hier große Probleme. Wenn es zwei dreistellige Zahlen multiplizieren soll, liegt die Erfolgsquote bei 59 Prozent. Bei vierstelligen Zahlen sinkt diese laut Choi auf 4 Prozent. Choi und ihre Mitarbeiter versuchten daraufhin verschiedene Methoden, um dem Modell beim Rechnen zu helfen: Sie machten Finetuning für GPT-3, indem sie das Modell mit Multiplikationsbeispielen fütterten, sie trainierten GPT-2 von Grund auf neu mit Multiplikationsdaten, sie erklärten GPT-4 explizit die Rechenmethode. Alles ohne durchschlagenden Erfolg. Ihre Erklärung ist, vereinfacht gesagt, dass die Modelle im Training „Rechenabkürzungen“ lernen, die in vielen Fällen in die Irre führen. Je komplexer die Rechnung, desto niedriger die Wahrscheinlichkeit, dass sie den richtigen Rechenweg anwenden können.

Nun könnte man meinen, dass man zum Rechnen dann halt einfach einen Taschenrechner statt Chat-GPT nutzen sollte. Choi aber ging es gar nicht um die konkrete Anwendung, sondern viel grundsätzlicher darum, darauf hinzuweisen, dass ähnliche Probleme bei anderen Aufgaben auftreten können, die ein komplexes „kompositionelles“ Lösungsverfahren erfordern. Paradoxerweise kann für solche Probleme gelten, dass sie uns Menschen sehr leichtfallen und nur die KI daran scheitert – während die KI anderes kann, was uns wiederum großen Respekt einflößt, komplexe Texte zusammenfassen etwa. Eine solche Umkehrung von Schwierig-einfach-Zuschreibungen im Vergleich von KI und Mensch kann man Choi zufolge auch an anderen Stellen beobachten. Dann nämlich, wenn die Sprach-KI eine „Theory of mind“ braucht.

Das klassische Beispiel ist folgendes Problem: „Alice und Bob sitzen in der Küche und sehen, dass Äpfel auf dem Küchentisch liegen. Bob räumt die Äpfel in den Schrank. Alice verlässt die Küche. Was erwartet Bob, wo Alice nach den Äpfeln sucht, wenn sie zurück in die Küche kommt?“ „Auf dem Tisch“, sagt Choi zufolge GPT-4 – ein Fehler, den Kinder bereits im Alter von vier Jahren nicht mehr machen. Anderes Beispiel: „Ich habe 5 Kleidungsstücke zum Trocknen in die Sonne gehängt. Es dauerte 10 Stunden, bis sie vollständig trocken waren. Wie lang würde es dauern, 20 Kleidungsstücke zu trocknen?“  Antwort Chat-GPT: „40 Stunden“. Für das Beantworten dieser Aufgaben braucht man Allgemeinwissen. Choi beschreibt das als „die unausgesprochenen Regeln, wie die Welt funktioniert, die beeinflussen, wie Menschen Sprache nutzen und Interpretieren“. Das ist die „Dunkle Materie“, auf die sie in ihrem Titel anspielt. Und sie ist pessimistisch, dass die auf tiefen neuronalen Netzen basierenden Modelle das wirklich erwerben können, wenn sie einfach nur größer und mit mehr Daten gefüttert werden.

Ob der Pessimismus gerechtfertigt ist, ist wiederum zu großen Teilen eine Glaubenssache, denn was in den Modellen wirklich vorgeht, bleibt intransparent. Optimisten verweisen darauf, dass die Modelle in der Vergangenheit immer wieder Fähigkeiten erlangt hätten, deren Entstehung man nicht vorhersagen konnte. Demnach erscheint es nicht unplausibel, dass irgendein künftiges GPT-Modell plötzlich fehlerfrei rechnen kann. Kritiker mögen sich dagegen in der Befürchtung bestätigt sehen, dass alles, was mit Rechnen und Logik zu tun hat, den neuronalen Netzen systematisch schwerfällt und man hier eine andere, symbolische Architektur braucht.

Ohne in dieser Frage Partei ergreifen zu wollen, war an Chois Vortrag aber noch etwas anderes interessant: Sie hob wiederholt hervor, dass die entscheidenden kritischen Studien zu einem ungewöhnlich hohen Anteil von Frauen geschrieben worden waren. Bei der Multiplikationsstudie waren es etwa fünf Frauen, die die ersten Autorenplätze besetzten. Ihre letzte Folie widmete Choi schließlich der Tatsache, dass sie selbst als gebürtige Südkoreanerin an der University of Washington die Förderung von Diversität und Inklusion als besonders wichtig empfunden habe, vielfältige und innovative Ansätze zu entwickeln.

Eine Umfrage unter Experten von KI-Sprachmodellen zu verschiedenen Aspekten der KI scheint Chois These zu bestätigen. Frauen und Minderheiten wichen dort in ihren Einschätzungen teilweise deutlich vom Rest der Befragten ab. Sie zeigten sich in unterschiedlichste Fragen skeptischer in Bezug auf die weitere Entwicklung der Sprachmodelle, insbesondere deren Fähigkeit, menschenähnliche Intelligenz zu entwickeln, hielten es aber gleichzeitig für wahrscheinlicher als Männer, dass KI katastrophale Folgen nach sich ziehen könne und ethische Fragen in Bezug auf möglichen Missbrauch stärker thematisiert werden sollten. Über Gründe spekulieren die Autoren der Umfrage nur sehr knapp. Demnach könnte insbesondere Minderheiten besonders sensibel hinsichtlich negativer gesellschaftlicher Konsequenzen von KI sein, weil sie wüssten, dass sie als erste davon getroffen würden. Ob das auch für Frauen gilt? Sicherlich gibt es auch dazu Forschung. In jedem Fall aber ist es interessant, dass es hier im Feld der KI einmal ein handfestes Bespiel für die These zu geben scheint, dass Förderung von Gleichberechtigung und Diversität nicht nur eine Frage der Fairness ist, sondern auch inhaltlich einen belebenden Einfluss auf die Forschung haben kann.

Sibylle Anderl, Montagsblock /227

26. Juni 2023

Links:

Nouha Dziri et al. (2023): Faith and Fate: Limits of Transformers on Compositionality: [2305.18654] Faith and Fate: Limits of Transformers on Compositionality (arxiv.org)

Julian Michael et al. (2022): “What do NLP researchers believe? Results of the NLP community metasurvey”, https://arxiv.org/pdf/2208.12852.pdf