Erst letzte Woche wieder wurde ich von jungen Wissenschaftlerinnen gefragt, ob ich noch manchmal die Forschung vermisse. Und wenn ich dann erstmal „Nein“ antworte, ist das nicht vollständig ehrlich, weil mir doch manchmal noch diese tiefe Versenkung in wissenschaftliche Knobelaufgaben fehlt. Wenn man eine bestimmte Vermutung anhand vorliegender Daten prüfen möchte und dafür erstmal die passende Software schreiben muss. Die Nervosität, wenn man frisch vom Teleskop kommende Daten das erste Mal visualisiert. Wenn man neue Forschungsergebnisse zum ersten Mal vor Fachpublikum vorstellt und verteidigen muss. Das alles vermisse ich schon manchmal ein bisschen.
Es gibt allerdings auch viele Dinge, bei denen ich sehr froh bin, sie hinter mir gelassen zu haben. Und dazu gehört das Schreiben von Gutachten für wissenschaftliche Fachjournale. Zuletzt stand ich bei fünf Zeitschriften für diesen Job auf der Liste verfügbarer Ansprechpartner – drei in der Astrophysik, zwei in der Wissenschaftsphilosophie.
Sobald bei solchen Journalen ein Forschungsartikel eingereicht wird, der in den Bereich der eigenen Expertise fällt, bekommt man eine Benachrichtigung mit einer kurzen Zusammenfassung des Artikels und der schwer abzuwehrenden Anfrage, ob man für eine Begutachtung zur Verfügung stünde. Innerhalb einiger Wochen muss man daraufhin den Artikel gewissenhaft durchchecken: Berücksichtigt er all die bereits vorliegende Forschung zu dem Thema? Stimmen die Quellenangaben? Ist die Fragestellung sinnvoll? Stimmt die Mathematik? Ist die Analysemethode angemessen? Ist die Interpretation der Ergebnisse wasserdicht? Wurden alle möglichen Fehlerquellen berücksichtigt? Wird ausreichend auf die Grenzen der Analyse eingegangen? Ist das alles neu und relevant genug, um in einem namhaften Journal veröffentlicht zu werden?
Schließlich schreibt man einen längeren Bericht. Entweder um die Ablehnung zu rechtfertigen. Oder man schreibt eine oft lange Liste mit Änderungswünschen, die für eine Wiedereinreichung berücksichtigt werden müssen. Nach ein paar Monaten (manchmal auch Jahren) liegt der überarbeitete Artikel dann abermals auf dem eigenen Schreibtisch. Und das Ganze geht in die nächste Runde. Ein ähnliches Verfahren (ohne Nachbearbeitung) wird angewendet, wenn darüber entschieden werden soll, welche Kollegen auf Fachkonferenzen Vorträge halten dürfen.
Das alles ist mindestens so aufwändig wie es klingt. Insbesondere wenn man noch nicht viel Erfahrung hat, kann man mit dieser Aufgabe viele Tage verbringen. Das Schwierige daran ist: Man erledigt das ehrenamtlich. Es gibt weder ein Honorar noch eine karriereförderliche Anerkennung. Zumindest in meinen Feldern geschieht die Arbeit fast immer anonym. Mit gutem Gewissen absagen kann man trotzdem nicht, denn das Peer-Review-Prinzip steht im Zentrum wissenschaftlicher Qualitätssicherung. Und wenn man selbst bei den entsprechenden Journals Artikel einreicht, nimmt man die Leistung schließlich auch von Kollegen in Anspruch.
Das Problem ist natürlich alles andere als neu. Genauso wenig seine Brisanz. Auch wenn man sagen könnte, dass diese heute eher noch gewachsen ist, da die Wissenschaft mit ihrem Anspruch, zuverlässiges und belastbares Wissen zu liefern, gesellschaftlich immer stärker unter Beschuss steht. Den Faktoren, die über die Qualität der Forschung entscheiden, sollte daher ganz besondere Aufmerksamkeit zuteilwerden.
Darauf, was andernfalls drohen könnte, gibt das Journal „Nature“ aktuell einen Ausblick, indem es eine aktuelle Preprint-Studie hervorhebt. Diese versucht abzuschätzen, in welchem Maße Wissenschaftler sich mittlerweile bei der unliebsamen Gutachter-Aufgabe von KI unterstützen lassen. Die Studie, durchgeführt größtenteils von Wissenschaftlern der Universität Stanford, hat dafür 146.000 Peer-Reviews von Bewerbungen für eine KI-Konferenz geprüft.
Während der Nachweis einer KI-Autorenschaft für individuelle Texte nach wie vor schwierig ist, versuchten die Autoren die Tatsache zu nutzen, dass große KI-generierte Text-Korpora statistisch andere Eigenschaften besitzen als solche, die von Menschen produziert wurden. Konkret verglichen sie Gutachten, die vor der Veröffentlichung von Chat-GPT Ende 2022 erstellt wurden, mit solchen, die danach entstanden. Tatsächlich stellten sie fest, dass bestimmte Adjektive in letzterer Gruppe von Gutachten signifikant häufiger auftraten. Beispiele dafür waren „commendable“, „innovative“, „meticulous“, „intricate“, „notable“ und „versatile“.
Besonders oft traten diese Adjektive in Gutachten auf, die kurz vor der Abgabe-Deadline eingereicht wurden, keine andere Fachliteratur zitierten und deren Autoren für Nachfragen schwer erreichbar waren. Für die Forscher lag damit der Schluss nahe, dass der Chatbot insbesondere dann eingesetzt wurde, wenn für die Gutachter die Zeit knapp wurde. Zwischen 7 und 15 Prozent der analysierten Sätze scheinen laut der Studie unter dem Einfluss von KI entstanden zu sein. Die Wissenschaftler wandten ihre Analyse auch auf Gutachten an, die für Artikel-Einreichungen bei Nature-Journalen erstellt wurden. Dort fanden sie diesen Trend nicht – es scheint also nicht daran gelegen zu haben, dass die fraglichen Adjektive in der wissenschaftlichen Community allgemein zu Modeworten geworden sind.
Weixin Liang, der Erstautor der Studie, äußerte sich „Nature“ gegenüber erstaunlich zurückhaltend: „Wir wollen keine Bewertung oder Aussage abgeben, dass die Nutzung von KI-Werkzeugen für die Begutachtung von Artikeln notwendig gut oder schlecht ist.“ Es sei aber aus Gründen der Transparenz und Verantwortlichkeit wichtig zu wissen, in welchem Umfang KI zum Einsatz gekommen ist. Vor dem Hintergrund der mittlerweile gut bekannten Faktenunsicherheit der großen Sprachmodelle und ihrem Hang zu Halluzinationen fällt es allerdings schwer, sich vorzustellen, inwiefern es der Qualität der Forschung zugute kommen sollte, wenn zunehmend KI-Modelle deren inhaltliche Beurteilung übernehmen sollten – auch wenn die Analyse von Liang und seinen Kollegen natürlich noch viele Fragen offen lässt und man nicht weiß, wofür die KI tatsächlich eingesetzt wurde (vielleicht diente sie nur der sprachlichen Glättung?). So oder so: Man kann nur hoffen, dass diese Entwicklungen (oder sei es nur deren Möglichkeit) ernst genommen werden, bevor das Peer-Review-System noch mehr Schaden nimmt.
Sibylle Anderl, Montagsblock /269
15. April 2024
Nature-Artikel: https://www.nature.com/articles/d41586-024-01051-2
Weixin Liang et al. (2024): „Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews“ https://arxiv.org/pdf/2403.07183.pdf