Home » El rendimiento de ChatGPT está bajando, según un nuevo estudio

El rendimiento de ChatGPT está bajando, según un nuevo estudio

by Thomas

ChatGPT irrumpió en escena a finales del año pasado, deslumbrando a la gente con sus habilidades conversacionales similares a las humanas, y el lanzamiento de la última versión provocó un repunte de las criptomonedas y llamamientos a una pausa en el desarrollo. Sin embargo, según un nuevo estudio, las habilidades de este bot de inteligencia artificial podrían estar en declive.

Investigadores de Stanford y UC Berkeley analizaron sistemáticamente diferentes versiones de ChatGPT entre marzo y junio de 2022. Desarrollaron puntos de referencia rigurosos para evaluar la competencia del modelo en tareas de matemáticas, codificación y razonamiento visual. Los resultados del rendimiento de ChatGPT a lo largo del tiempo no fueron buenos.

Las pruebas revelaron un sorprendente descenso del rendimiento entre versiones. En un reto matemático de determinación de números primos, ChatGPT resolvió correctamente 488 de 500 preguntas en marzo, lo que supone una precisión del 97,6%. Sin embargo, en junio, ChatGPT sólo consiguió acertar 12 preguntas, con una precisión del 2,4%.

Imagen: UC Berkeley, Stanford

Imagen: UC Berkeley, Stanford


El descenso fue especialmente pronunciado en las habilidades de codificación de software del chatbot.

«Para GPT-4, el porcentaje de generaciones que son directamente ejecutables cayó del 52,0% en marzo al 10,0% en junio», según la investigación. Estos resultados se obtuvieron utilizando la versión pura de los modelos, es decir, sin plugins intérpretes de código.

Para evaluar el razonamiento, los investigadores utilizaron indicaciones visuales del conjunto de datos Abstract Reasoning Corpus (ARC). Incluso en este caso, aunque no tan pronunciado, se observó un descenso. «En junio, el GPT-4 cometió errores en consultas en las que había acertado en marzo», se lee en el estudio.

¿Qué podría explicar el aparente descenso de ChatGPT después de sólo unos meses? Los investigadores plantean la hipótesis de que puede ser un efecto secundario de las optimizaciones que está llevando a cabo OpenAI, su creador.

Una posible causa son los cambios introducidos para evitar que ChatGPT responda a preguntas peligrosas. Sin embargo, este ajuste de seguridad podría mermar la utilidad de ChatGPT para otras tareas. Los investigadores descubrieron que ahora el modelo tiende a dar respuestas verbales e indirectas en lugar de respuestas claras.

«GPT-4 está empeorando con el tiempo, no mejorando», afirmó el experto en IA Santiago Valderrama en Twitter. Valderrama también planteó la posibilidad de que una mezcla «más barata y rápida» de modelos haya sustituido a la arquitectura ChatGPT original.

«Los rumores sugieren que están utilizando varios modelos GPT-4 más pequeños y especializados que actúan de forma similar a un modelo grande pero son menos costosos de ejecutar», planteó la hipótesis, que según él podría acelerar las respuestas para los usuarios pero reducir la competencia.

Otro experto, el Dr. Jm, Fan también compartió su opinión en un hilo de Twitter.

«Lamentablemente, una mayor seguridad suele ir acompañada de una menor utilidad», escribió, diciendo que estaba tratando de dar sentido a los resultados vinculándolos a la forma en que OpenAI afina sus modelos. «Mi conjetura (sin pruebas, sólo especulación) es que OpenAI dedicó la mayor parte de sus esfuerzos a hacer lobotomía de marzo a junio, y no tuvo tiempo de recuperar plenamente las otras capacidades que importan».

Fan argumenta que pueden haber entrado en juego otros factores, a saber, los esfuerzos de reducción de costes, la introducción de advertencias y descargos de responsabilidad que pueden «atontar» el modelo, y la falta de una retroalimentación más amplia por parte de la comunidad.

Aunque es necesario realizar pruebas más exhaustivas, los resultados coinciden con la frustración expresada por los usuarios ante la pérdida de coherencia de los resultados de ChatGPT.

¿Cómo evitar que siga deteriorándose? Algunos entusiastas abogan por modelos de código abierto como el LLaMA de Meta (que acaba de actualizarse), que permiten la depuración comunitaria. La evaluación comparativa continua para detectar a tiempo las regresiones es crucial.

Por ahora, los fans de ChatGPT deben moderar sus expectativas. La alocada máquina generadora de ideas con la que muchos se encontraron al principio parece más sosegada, y quizá menos brillante. Pero el declive relacionado con la edad parece inevitable, incluso para las celebridades de la IA.

Related Posts

Leave a Comment