Montagsblock /346

Es ist schon eine ziemlich kuriose Vorstellung: Am vergangenen Mittwoch hat eine wissenschaftliche Konferenz stattgefunden, bei der von Künstlicher Intelligenz verfasste Forschung vorgestellt wurde. Künstliche Intelligenz war dabei im Vorfeld verantwortlich dafür, aus den eingegangenen Bewerbungen die besten Forschungsergebnisse auszusuchen. 48 Arbeiten wurden auf diese Weise ausgewählt, das thematische Spektrum war weit gefasst von Chemie und Medizin bis Psychologie. Natürlich lief das Treffen mit den Titel „Agents4Science“ virtuell ab. Organisiert wurde es aber vornehmlich von Wissenschaftlern der Stanford University. Das Ganze war als Experiment gedacht. Es ging darum, das Potential und die Grenzen Künstlicher Intelligenz auszuloten, wenn es um die Produktion von Wissen geht.

Gemutmaßt hatte man ja schon eine Weile, dass das ein Szenario sein könnte, auf das sich der Wissenschaftsbetrieb hinbewegt: KI schreibt Studien und liest sie dann gleich auch – schließlich legt KI bei dem Verfassen von Studien ein so hohes Tempo vor, dass Menschen mit ihrem langsamen Lesetempo noch stärker überfordert sind als jetzt schon angesichts des exponentiellen Wachstums von Veröffentlichungen. Wer als Mensch trotzdem noch Anschluss sucht in diesem automatisierten Forschungszyklus, kann sich die wichtigsten Papers dann ja von KI zusammenfassen lassen. Aber funktioniert das wirklich schon alles ohne menschliche Beteiligung?

In der Produktion der Papers für die Konferenz zumindest waren Menschen noch stark beteiligt. Die Organisatoren fragten den Anteil der von KI übernommenen Arbeit bei Hypothesenfindung, Datenanalyse und dem Schreiben der Studie ab. Nur in 57 Prozent der eingereichten Studien war die KI für den größten Teil der Ideenproduktion verantwortlich. Beim Schreiben allerdings war die KI immer dominanter Akteur.

Die Grenzen der KI waren allerdings deutlich, das berichtet das Journal „Science“ in einem Artikel über die Konferenz. Ohne menschliche Hilfe sind die Chatbots noch aufgeschmissen. Komplexe Methoden würden von ihnen missinterpretiert, Programmier-Code enthalte Fehler, und – natürlich! – das Zitieren wissenschaftlicher Quellen produziere nach wie vor viel halluzinierten Blödsinn. Das, was technisch korrekt sei, sei oft weder interessant noch wichtig, wird dort die (menschliche) Gutachterin Risa Wechsler zitiert.

Wechsler war in der zweiten Begutachtungsrunde eingebunden, denn die KI war bei der Konferenz nur dafür verantwortlich, in einer ersten Runde die schlechtesten Einsendungen auszusortieren. Dabei wurden drei große Sprachmodelle (GPT-5, Gemini 2.5 Pro und Claude Sonnet 4) genutzt, die die 315 eingesandten Paper auf einer Punktskala bewerten sollten. Die 80 bestbeurteilten wurden dann nochmal von Menschen angeschaut, die schließlich die 48 finalen Beiträge auswählten.

Auch hier blieben die Ergebnisse offenbar noch unbefriedigend. Den Grund kann vermutlich jeder auf der Grundlage eigener Erfahrungen mit Chatbots nachvollziehen. Die Sprachmodelle sind darauf ausgerichtet, gute Laune zu verbreiten. Sie finden sehr schnell Dinge großartig und weltbewegend. Auch hier gibt „Science“ ein aufschlussreiches Beispiel. Wo die KI eine Arbeit „tiefgründig“ fand, schrieb der menschliche Gutachter: „eine interessante Machbarkeitsstudie mit einigen schwelenden Fragen“. Die Begutachtung wissenschaftlicher Ideen beruht bei Menschen auf jahre-, oft jahrzehntelanger Erfahrung, die als implizites Wissen den Sprachmodellen vermutlich nicht in vergleichbarer Tiefe vorliegt. Hier müsste man die KI vermutlich noch sehr viel gezielter trainieren.

Genau solche Einsichten wollten die Organisatoren allerdings auch provozieren. Ihr Anliegen ist tatsächlich ehrenwert. Denn dass das wissenschaftliche Publikationswesen tief in der Krise steckt, ist bekannt. Nicht zuletzt krankt es am nicht gut funktionierenden und trotzdem unverändert praktizierten Begutachtungsprozedere, das auf ehrenamtlicher Arbeit von Wissenschaftlern beruht, die weder finanziell honoriert noch als karriererelevanter Faktoren anerkannt wird – wobei das gewissenhafte Prüfen einer fremden Forschungsarbeit, das oft mehrere Überarbeitungsrunden umfasst, unglaublich zeitaufwändig ist.

Die Wichtigkeit der Begutachtung von Arbeiten durch Kollegen als zentrales Element der Qualitätssicherung wissenschaftlicher Forschung steht in keinem Verhältnis zu der fehlenden Wertschätzung dieser Tätigkeit. Wenn hier KI helfen könnte, den Menschen zumindest etwas Arbeit abzunehmen, könnte das eine ganz entscheidende Verbesserung sein. Gleichzeitig muss man sich dann aber sicher sein können, dass die KI tatsächlich auch das richtige Werkzeug zur Qualitätssicherung sein kann. Bislang scheint man davon leider noch recht weit entfernt zu sein. Aber hier Möglichkeiten der Automatisierung zu prüfen, scheint ein lohnendes Unterfangen zu sein.

Sibylle Anderl, Montagsblock /346

  1. Oktober 2025

Konferenzseite: https://agents4science.stanford.edu/index.html

Science Artikel: https://www.science.org/content/article/futuristic-meeting-ais-took-lead-producing-and-reviewing-all-studies