Home » O desempenho do ChatGPT está a diminuir, segundo um novo estudo

O desempenho do ChatGPT está a diminuir, segundo um novo estudo

by Tim

ChatGPT explodiu em cena no final do ano passado, deslumbrando as pessoas com suas habilidades de conversação semelhantes às humanas, e o lançamento da versão mais recente gerou um rally de criptografia e pede uma pausa no desenvolvimento. Mas, de acordo com um novo estudo, as habilidades do principal bot de IA podem estar em declínio.

Pesquisadores de Stanford e UC Berkeley analisaram sistematicamente diferentes versões do ChatGPT de março e junho de 2022. Eles desenvolveram benchmarks rigorosos para avaliar a competência do modelo em matemática, codificação e tarefas de raciocínio visual. Os resultados do desempenho do ChatGPT ao longo do tempo não foram bons.

Os testes revelaram uma queda surpreendente no desempenho entre versões. Num desafio matemático de determinação de números primos, o ChatGPT resolveu corretamente 488 de 500 perguntas em março, uma precisão de 97,6%. No entanto, em junho, o ChatGPT só conseguiu acertar em 12 perguntas, caindo para uma precisão de 2,4%.

Imagem: UC Berkeley, Stanford

Imagem: UC Berkeley, Stanford


O que poderia explicar a aparente descida de classificação do ChatGPT após apenas alguns meses? Os investigadores colocam a hipótese de ser um efeito secundário das optimizações feitas pela OpenAI, o seu criador.

Uma das causas possíveis são as alterações introduzidas para evitar que o ChatGPT responda a perguntas perigosas. Este alinhamento de segurança pode, no entanto, prejudicar a utilidade do ChatGPT para outras tarefas. Os investigadores descobriram que o modelo tende agora a dar respostas detalhadas e indirectas em vez de respostas claras.

“O GPT-4 está a piorar com o tempo, não a melhorar”, disse o especialista em IA Santiago Valderrama no Twitter. Valderrama também levantou a possibilidade de que uma mistura de modelos “mais baratos e mais rápidos” possa ter substituído a arquitetura original do ChatGPT.

“Os rumores sugerem que estão a utilizar vários modelos GPT-4 mais pequenos e especializados, que actuam de forma semelhante a um modelo grande, mas que são menos dispendiosos de executar”, colocou a hipótese, o que, segundo ele, poderia acelerar as respostas dos utilizadores, mas reduzir a competência.

Outro especialista, o Dr. Jm, Fan, também partilhou as suas ideias num tópico do Twitter.

“Infelizmente, mais segurança tem normalmente o custo de menos utilidade”, escreveu, dizendo que estava a tentar dar sentido aos resultados ligando-os à forma como o OpenAI afina os seus modelos. “O meu palpite (sem provas, apenas especulação) é que a OpenAI gastou a maior parte dos esforços a fazer lobotomia de março a junho, e não teve tempo para recuperar totalmente as outras capacidades que importam.”

Fan argumenta que outros factores podem ter entrado em jogo, nomeadamente os esforços de redução de custos, a introdução de avisos e isenções de responsabilidade que podem “emburrecer” o modelo e a falta de um feedback mais amplo da comunidade.
Embora se justifique a realização de testes mais abrangentes, os resultados alinham-se com as frustrações expressas pelos utilizadores relativamente ao declínio da coerência dos resultados outrora eloquentes do ChatGPT.

Como é que podemos evitar uma maior deterioração? Alguns entusiastas defenderam modelos de código aberto como o LLaMA do Meta (que acaba de ser atualizado) que permitem a depuração pela comunidade. A avaliação comparativa contínua para detetar regressões precocemente é crucial.

Por agora, os fãs do ChatGPT podem ter de moderar as suas expectativas. A máquina geradora de ideias selvagem que muitos encontraram pela primeira vez parece mais calma – e talvez menos brilhante. Mas o declínio relacionado com a idade parece ser inevitável, mesmo para as celebridades da IA.

Related Posts

Leave a Comment