Home » Até a pior versão do Claude AI é melhor do que o GPT 3.5, dizem os investigadores

Até a pior versão do Claude AI é melhor do que o GPT 3.5, dizem os investigadores

by Thomas

A indústria da IA está a assistir a uma competição fascinante entre os notáveis modelos ChatGPT e Claude AI. A Large Model Systems Organization (LMSO), responsável pela criação da Chatbot Arena e do famoso modelo Vicuna, acaba de atualizar a sua tabela de classificação da Chatbot Arena, que reflecte a forma como cada chatbot de IA se compara aos seus concorrentes. Acontece que o Anthropic está a dar à OpenAI uma corrida pelo seu dinheiro, mesmo quando os seus modelos ainda são de utilização gratuita.

O GPT-4, a força motriz por detrás do ChatGPT Plus e do Bing AI, reina supremo com a pontuação mais elevada, estabelecendo o padrão de ouro para os modelos de linguagem de grande dimensão (LLM). Mas, à medida que descemos na tabela de classificação, surge uma inesperada história de azarão. Os modelos Claude do Anthropic – Claude 1, Claude 2 e Claude Instant – superam o GPT-3.5, o mecanismo que alimenta a versão gratuita do ChatGPT. Isso implica que todos os modelos de linguagem grande desenvolvidos pelo Anthropic podem superar a versão gratuita do ChatGPT.

O sistema de classificação meticuloso do LMSO permitiu conhecer as métricas de desempenho destes modelos. De acordo com a tabela de classificação, o GPT-4 tem uma classificação Arena Elo de 1181, liderando significativamente o gráfico, enquanto os modelos Claude seguem de perto com classificações que variam de 1119 a 1155. GPT-3.5, por outro lado, fica atrás com uma classificação de 1115.

Para classificar os modelos, o LMSO fá-los “batalhar” em jogos com prompts semelhantes. O modelo com a melhor resposta ganha e o outro perde. Os utilizadores decidem quem ganha com base nas suas próprias preferências, mas nunca chegam a saber que modelos estão a competir.

Imagem: LMSO

Imagem: LMSO


Como o TCN informou anteriormente, a diferença nas capacidades de processamento de tokens entre o ChatGPT Plus e o Claude Pro, embora não seja um fator na classificação do LMSO, é também uma grande vantagem que os modelos Claude têm sobre o GPT.

“O Claude Pro, baseado no LLM Claude 2, pode processar até 100 mil tokens de informação, enquanto o ChatGPT Plus, equipado com o LLM GPT-4, processa 8.192 tokens”, recordámos. Este diferencial na capacidade de processamento de tokens sublinha a vantagem dos modelos Claude na gestão de entradas contextuais extensas, o que é crucial para uma experiência de utilizador enriquecida e com nuances.

Além disso, ao lidar com prompts longos, o Claude 2 mostrou superioridade sobre o GPT, lidando com prompts de maior magnitude de forma mais eficiente. No entanto, quando os prompts são comparáveis, o Claude 1 e o Claude Instant fornecem resultados semelhantes ou ligeiramente melhores do que o GPT-3.5, mostrando a natureza competitiva desses modelos. Com as capacidades de contexto do Claude, uma resposta inicial fraca pode ser dramaticamente melhorada com uma pergunta mais refinada, maior e mais rica.

Os modelos de código aberto não ficam muito atrás nesta corrida.

O WizardLM, um modelo treinado no LlaMA-2 do Meta com 70 mil milhões de parâmetros, destaca-se como o melhor LLM de código aberto. Seguem-se o Vicuna 33B e o LlaMA-2 original, lançado pela Meta.

Os modelos de fonte aberta desempenham um papel importante no desenvolvimento do espaço de IA por diferentes razões. Podem ser executados localmente, o que dá aos utilizadores a oportunidade de os afinarem e envolve a comunidade num esforço coletivo para aperfeiçoar o modelo. Também são mais baratos de executar devido às suas licenças, razão pela qual o espaço tem dezenas de LLMs de código aberto e apenas uma mão-cheia de modelos proprietários.

Mas o jogo dos chatbots com IA não é apenas uma questão de números. Trata-se de implicações no mundo real.

À medida que os chatbots se tornam parte integrante de vários sectores, desde o serviço ao cliente aos assistentes pessoais, a sua eficácia, adaptabilidade e precisão tornam-se fundamentais. Com os modelos Claude com uma classificação superior ao GPT-3.5, as empresas e os utilizadores individuais podem encontrar-se numa encruzilhada, avaliando qual o modelo que melhor se adequa às suas necessidades. A TCN preparou dois guias para o ajudar a decidir qual o modelo mais adequado para si.

Para os não iniciados, isto pode parecer apenas mais uma atualização da tabela de classificação. Mas para quem acompanha de perto a indústria da IA, é uma prova de como a concorrência é feroz e de como as marés podem mudar rapidamente. E para o resto de nós, que nos situamos entre estes dois campos, é um lembrete de que no mundo da IA, o modelo mais popular de hoje pode cair para o mais eficiente.

Related Posts

Leave a Comment