Une nouvelle étude révèle que les performances de ChatGPT sont en baisse

ChatGPT a explosé sur la scène à la fin de l’année dernière, éblouissant les gens avec ses capacités de conversation semblables à celles des humains, et la sortie de la dernière version a provoqué un rallye cryptographique et des appels à une pause dans le développement. Mais selon une nouvelle étude, les compétences du principal bot d’IA pourraient en fait être en déclin.

Des chercheurs de Stanford et de l’université de Berkeley ont analysé systématiquement différentes versions de ChatGPT entre mars et juin 2022. Ils ont élaboré des critères rigoureux pour évaluer les compétences du modèle en mathématiques, en codage et en raisonnement visuel. Les résultats des performances de ChatGPT au fil du temps n’étaient pas bons.

Les tests ont révélé une chute étonnante des performances entre les différentes versions. Dans un défi mathématique consistant à déterminer les nombres premiers, ChatGPT a résolu correctement 488 questions sur 500 en mars, soit une précision de 97,6 %. Cependant, en juin, ChatGPT n’a réussi à répondre correctement qu’à 12 questions, avec une précision de 2,4 %.

Image : UC Berkeley, Stanford

Le déclin a été particulièrement marqué dans les capacités de codage logiciel du chatbot.

« Pour le GPT-4, le pourcentage de générations directement exécutables est passé de 52,0 % en mars à 10,0 % en juin. Ces résultats ont été obtenus en utilisant la version pure des modèles, ce qui signifie qu’aucun plugin d’interprétation de code n’a été utilisé.

Pour évaluer le raisonnement, les chercheurs ont utilisé des invites visuelles provenant de l’ensemble de données Abstract Reasoning Corpus (ARC). Même dans ce cas, bien qu’il ne soit pas aussi marqué, un déclin a été observé. « En juin, le GPT-4 a commis des erreurs sur des questions pour lesquelles il était correct en mars », peut-on lire dans l’étude.

Qu’est-ce qui pourrait expliquer la dégradation apparente du ChatGPT après seulement quelques mois ? Les chercheurs supposent qu’il pourrait s’agir d’un effet secondaire des optimisations effectuées par OpenAI, son créateur.

Les changements introduits pour empêcher ChatGPT de répondre à des questions dangereuses pourraient en être la cause. Cet alignement sur la sécurité pourrait toutefois nuire à l’utilité de ChatGPT pour d’autres tâches. Les chercheurs ont constaté que le modèle a désormais tendance à donner des réponses verbeuses et indirectes au lieu de réponses claires.

« GPT-4 se dégrade au fil du temps, il ne s’améliore pas », a déclaré Santiago Valderrama, expert en IA, sur Twitter. M. Valderrama a également évoqué la possibilité qu’un mélange de modèles « moins chers et plus rapides » ait remplacé l’architecture originale de ChatGPT.

« Les rumeurs suggèrent qu’ils utilisent plusieurs modèles GPT-4 plus petits et spécialisés qui agissent de la même manière qu’un grand modèle, mais dont l’exécution est moins coûteuse », a-t-il émis l’hypothèse, ce qui, selon lui, pourrait accélérer les réponses pour les utilisateurs, mais réduire les compétences.

Il y a des centaines (peut-être déjà des milliers ?) de réponses de personnes qui disent avoir remarqué la dégradation de la qualité.

Parcourez les commentaires, et vous lirez de nombreuses situations où GPT-4 ne fonctionne pas comme avant.

– Santiago (@svpino) July 19, 2023

Un autre expert, le Dr. Jm, Fan, a également partagé son point de vue sur un fil Twitter.

« Malheureusement, plus de sécurité va généralement de pair avec moins d’utilité », a-t-il écrit, expliquant qu’il essayait de donner un sens aux résultats en les reliant à la manière dont OpenAI affine ses modèles. « Mon hypothèse (aucune preuve, juste des spéculations) est qu’OpenAI a consacré la majorité de ses efforts à la lobotomie de mars à juin, et n’a pas eu le temps de récupérer pleinement les autres capacités qui comptent. »

Fan affirme que d’autres facteurs ont pu entrer en jeu, à savoir les efforts de réduction des coûts, l’introduction d’avertissements et d’avis de non-responsabilité susceptibles de « débiliter » le modèle, et l’absence d’un retour d’information plus large de la part de la communauté.

Bien que des tests plus complets soient justifiés, les résultats s’alignent sur les frustrations exprimées par les utilisateurs quant à la perte de cohérence des résultats autrefois éloquents de ChatGPT.

Comment pouvons-nous empêcher une détérioration plus importante ? Certains enthousiastes ont plaidé pour des modèles open-source comme LLaMA de Meta (qui vient d’être mis à jour) qui permettent un débogage par la communauté. Il est essentiel de procéder à des analyses comparatives en continu pour détecter rapidement les régressions.

Pour l’instant, les fans de ChatGPT doivent tempérer leurs attentes. La machine sauvage à générer des idées que beaucoup ont rencontrée pour la première fois semble plus calme, et peut-être moins brillante. Mais le déclin lié à l’âge semble inévitable, même pour les célébrités de l’IA.

AI ChatGPT Competency Conversational Decline Developed Model Performance Research

Une nouvelle étude révèle que les performances de ChatGPT sont en baisse

Orgasme NFTs ? La marque de cosmétiques NARS dévoile des ventes aux enchères d’œuvres d’art qui font lever les sourcils

Les bot tokens de Telegram s’approchent d’une capitalisation boursière de 100 millions de dollars

Related Posts

Leave a Comment Cancel Reply