Home » ChatGPTs Leistung lässt nach, sagt eine neue Studie

ChatGPTs Leistung lässt nach, sagt eine neue Studie

by Thomas

ChatGPT explodierte Ende letzten Jahres auf der Bildfläche und verblüffte die Menschen mit seinen menschenähnlichen Konversationsfähigkeiten, und die Veröffentlichung der neuesten Version löste eine Krypto-Rallye und Forderungen nach einer Entwicklungspause aus. Doch einer neuen Studie zufolge könnten die Fähigkeiten des führenden KI-Bots tatsächlich abnehmen.

Forscher aus Stanford und der UC Berkeley analysierten systematisch verschiedene Versionen von ChatGPT zwischen März und Juni 2022. Sie entwickelten strenge Benchmarks, um die Kompetenz des Modells in den Bereichen Mathematik, Codierung und visuelles Denken zu bewerten. Die Ergebnisse der Leistung von ChatGPT im Laufe der Zeit waren nicht gut.

Die Tests zeigten einen erstaunlichen Leistungsabfall zwischen den Versionen. Bei einer mathematischen Aufgabe zur Bestimmung von Primzahlen löste ChatGPT im März 488 von 500 Fragen richtig, was einer Genauigkeit von 97,6 % entspricht. Im Juni schaffte es ChatGPT jedoch nur noch, 12 Fragen richtig zu lösen, was zu einem Rückgang der Genauigkeit auf 2,4 % führte.

Bild: UC Berkeley, Stanford

Bild: UC Berkeley, Stanford


Besonders stark war der Rückgang bei den Software-Codierfähigkeiten des Chatbots.

„Bei GPT-4 sank der Prozentsatz der direkt ausführbaren Generationen von 52,0 % im März auf 10,0 % im Juni“, so die Studie. Diese Ergebnisse wurden durch die Verwendung der reinen Version der Modelle erzielt, d. h. es waren keine Code-Interpreter-Plugins beteiligt.

Zur Bewertung des logischen Denkens verwendeten die Forscher visuelle Aufforderungen aus dem Abstract Reasoning Corpus (ARC) Datensatz. Auch hier war ein Rückgang zu beobachten, wenn auch nicht so stark. „GPT-4 machte im Juni Fehler bei Abfragen, bei denen es im März richtig lag“, heißt es in der Studie.

Was könnte die offensichtliche Verschlechterung von ChatGPT nach nur ein paar Monaten erklären? Die Forscher vermuten, dass es sich um einen Nebeneffekt der Optimierungen handelt, die von OpenAI, dem Hersteller des Programms, vorgenommen wurden.

Eine mögliche Ursache sind Änderungen, die ChatGPT daran hindern sollen, gefährliche Fragen zu beantworten. Diese Sicherheitsanpassung könnte jedoch die Nützlichkeit von ChatGPT für andere Aufgaben beeinträchtigen. Die Forscher fanden heraus, dass das Modell nun dazu neigt, ausführliche, indirekte Antworten zu geben, anstatt klare Antworten zu geben.

„GPT-4 wird mit der Zeit immer schlechter, nicht besser“, sagte der KI-Experte Santiago Valderrama auf Twitter. Valderrama sprach auch die Möglichkeit an, dass eine „billigere und schnellere“ Mischung von Modellen die ursprüngliche ChatGPT-Architektur ersetzt haben könnte.

„Gerüchte deuten darauf hin, dass sie mehrere kleinere und spezialisierte GPT-4-Modelle verwenden, die sich ähnlich wie ein großes Modell verhalten, aber weniger kostspielig im Betrieb sind“, vermutete er, was seiner Meinung nach die Antworten für die Nutzer beschleunigen, aber die Kompetenz verringern könnte.

Ein weiterer Experte, Dr. Jm, Fan, teilte seine Erkenntnisse ebenfalls in einem Twitter-Thread.

„Leider geht mehr Sicherheit in der Regel mit weniger Nützlichkeit einher“, schrieb er und versuchte, die Ergebnisse mit der Art und Weise zu verknüpfen, wie OpenAI seine Modelle abstimmt. „Meine Vermutung (kein Beweis, nur eine Spekulation) ist, dass OpenAI von März bis Juni die meiste Zeit damit verbracht hat, Lobotomie zu betreiben, und keine Zeit hatte, die anderen Fähigkeiten, die wichtig sind, vollständig wiederherzustellen.“

Fan argumentiert, dass auch andere Faktoren eine Rolle gespielt haben könnten, nämlich die Bemühungen um Kostensenkungen, die Einführung von Warnungen und Haftungsausschlüssen, die das Modell „verdummen“ könnten, und das Fehlen eines breiteren Feedbacks aus der Community.

Auch wenn umfassendere Tests gerechtfertigt sind, decken sich die Ergebnisse mit der von den Nutzern geäußerten Frustration über die abnehmende Kohärenz der einst so aussagekräftigen Ergebnisse von ChatGPT.

Wie können wir eine weitere Verschlechterung verhindern? Einige Enthusiasten sprachen sich für Open-Source-Modelle wie Metas LLaMA (das gerade aktualisiert wurde) aus, die eine gemeinschaftliche Fehlersuche ermöglichen. Kontinuierliches Benchmarking zur frühzeitigen Erkennung von Rückschritten ist entscheidend.

Im Moment müssen ChatGPT-Fans ihre Erwartungen vielleicht noch zurückhalten. Die wilde Ideenfindungsmaschine, mit der viele zuerst konfrontiert wurden, scheint zahmer zu sein – und vielleicht weniger brillant. Aber der altersbedingte Niedergang scheint unvermeidlich zu sein, selbst für KI-Persönlichkeiten.

Related Posts

Leave a Comment