O Claude 2 foi lançado - como é que o chatbot de IA da Anthropic se compara ao ChatGPT e ao Google Bard?

Anthropic, a empresa de IA lançada por ex-pesquisadores da OpenAI, revelou seu chatbot atualizado, Claude 2, visando diretamente rivais como ChatGPT e Google Bard.

Apenas cinco meses após a estreia do Claude, o seu sucessor apresenta respostas mais longas, raciocínio diferenciado e desempenho superior, com uma pontuação impressionante nos exames de leitura e escrita GRE.

O Claude 2 foi caracterizado como uma potência de IA capaz de digerir até 100.000 tokens, o equivalente a 75.000 palavras, numa única pergunta. Este é um salto dramático em relação ao anterior limite de 9.000 tokens do Claude, que apresenta uma vantagem única: a capacidade da IA de fornecer respostas de uma forma mais contextual e melhorada.

O novo modelo fez progressos significativos em vários campos, incluindo direito, matemática e codificação, avaliados através de testes padronizados. De acordo com a Anthropic, o Claude 2 obteve 76,5% na secção de escolha múltipla do exame da Ordem dos Advogados (o GPT-3.5 obteve 50,3%) e alcançou uma pontuação superior a 90% dos candidatos a cursos de pós-graduação nos exames de leitura e escrita do GRE. O Claude 2 também obteve uma pontuação de 71,2% no teste de codificação Codex HumanEval Python e 88,0% nos problemas de matemática do ensino básico GSM8k, revelando as suas capacidades computacionais avançadas.
Preço:

ChatGPT: Gratuito para quem usa a versão GPT-3.5. Quem quiser usar a versão mais potente do GPT-4 terá de pagar 20 dólares por mês pela versão ChatGPT Plus.
Claude: Grátis
Bard: Grátis

Disponibilidade:

ChatGPT: É o mais amplamente disponível dos três.
Bard: Está disponível em menos países do que o ChatGPT.
Claude: Temporariamente disponível nos EUA e no Reino Unido.

Privacidade:

ChatGPT: Permite aos utilizadores eliminar as suas interacções. Não suporta a navegação através de VPN.
Bard: Tem uma opção para eliminar automaticamente as interacções em 18 meses. Não permite que os utilizadores recuperem interacções anteriores. Suporta VPNs, o que o torna virtualmente disponível em qualquer parte do mundo, contornando restrições políticas.
Claude: permite que os utilizadores apaguem as suas conversas. Suporta a navegação VPN.

Línguas suportadas:

ChatGPT: Suporta mais de 80 idiomas.
Bard: Suporta inglês, japonês e coreano.
Claude: Suporta vários idiomas comuns, como inglês, espanhol, português, francês, mandarim e alemão, entre outros. Se não reconhecer um idioma (ou se a entrada tiver muitos erros gramaticais), fornece uma frase introdutória e, em seguida, responde em inglês.

Tratamento do contexto:

ChatGPT: A versão gratuita suporta 7.096 tokens de contexto, o ChatGPT Plus (GPT-4) suporta 8.192 tokens. A OpenAI oferece uma versão que suporta 32K tokens, mas não é utilizada pelo ChatGPT.
Bard: Suporta 8.196 tokens de contexto.
Claude: Suporta 100.000 tokens de contexto – não é um erro de digitação.

Características:

ChatGPT: A versão gratuita não tem funcionalidades adicionais. O GPT Plus oferece uma loja de plug-ins, um intérprete de código e um recurso de navegação na Web temporariamente pausado, desenvolvido pelo Microsoft Bing. Fornece suporte à API.
Bard: o chatbot ainda está em fase experimental, mas terá uma loja de plug-ins e integração com o Google Suite. Fornece acesso limitado à sua API.
Claude: O chatbot pode ser adicionado ao Slack e lidar com diferentes tarefas, como resumir tópicos, dar sugestões, fazer brainstorming, etc. Oferece suporte à API.

A batalha dos prompts: ChatGPT vs Bard vs Claude

TCN usou o mesmo prompt para comparar os resultados obtidos pelos três chatbots.

Compreender línguas estrangeiras

Primeiro, pedimos o significado de uma frase de calão comum em espanhol. O Claude provou ser mais cuidadoso e preciso na sua explicação, o ChatGPT deu uma explicação suficientemente boa, mas o Bard recusou-se a responder, argumentando que não sabia falar espanhol. No entanto, assim que reformulámos a nossa pergunta de “o que significa isto” para “o que é o equivalente em inglês a”, deu uma resposta melhor do que a fornecida pelo ChatGPT, embora menos extensa do que a do Claude AI.

Resposta fornecida por Claude 2.

Resposta fornecida por ChatGPT.

Resposta fornecida pelo Google Bard.

Informação actualizada

De seguida, perguntámos aos modelos qual o preço do Bitcoin hoje. Isso não apenas testa os recursos de navegação na Web, mas também mede a quantidade de informações que cada um fornece com base em um único pedido.

O ChatGPT falhou. Não está ligado à Internet, pelo que não pode fornecer informações actualizadas. O Claude também não tem ligação à Internet. Ao contrário do ChatGPT, no entanto, ele alucinou uma resposta com informações incorrectas. Se um utilizador fizesse uma pergunta assumindo que o Cláudio tem uma ligação à Internet, receberia uma resposta errada que apareceria como correcta. O Google Bard forneceu a informação correcta.

Resposta fornecida por ChatGPT.

Resposta fornecida por Claude 2.

Resposta fornecida por Google Bard.

Tratamento do contexto

De seguida, testámos os modelos quanto à sua capacidade de lidar com grandes blocos de texto. Utilizámos a Bíblia como exemplo e copiámos todo o texto de Génesis 1:1 a Êxodo 25:39 (quase 62 mil palavras). De seguida, fizemos uma pergunta muito específica a partir da história apresentada no texto.

O único modelo capaz de dar uma resposta foi o Cláudio, como esperado. Demorou cerca de 2 minutos a processar a pergunta, mas deu uma resposta correcta. Utilizámos marcadores específicos para garantir que não estava a fazer batota e que estava, de facto, a analisar o texto, e provou estar à altura da tarefa.

Resposta dada pelo Cláudio 2.

Habilidades não verbais

Finalmente, pedimos aos modelos para lidarem com algumas tarefas matemáticas. Os LLMs de IA não foram realmente concebidos para o fazer, e o ChatGPT Plus com GPT-4 é provavelmente a melhor opção entre os três com o seu interpretador de código. No entanto, testámos os três modelos e pedimos-lhes que criassem um plano de pagamento para uma pessoa que está a tentar saldar as suas dívidas de cartão de crédito. Também pedimos aos modelos que classificassem quais os cartões que devem ser utilizados e quais os que devem ser evitados.

O Claude deu as respostas mais completas em termos do plano. No entanto, cometeu um erro e recomendou-nos que déssemos prioridade às despesas com o cartão com a TAEG mais elevada.

Resposta dada por Cláudio 2.

O intérprete de código do ChatGPT deu uma resposta em que pagamos a mais num dos cartões, o que não é muito útil se alguém tiver dívidas noutros cartões.

Resposta fornecida pelo ChatGPT utilizando o intérprete de código.

GPT 3.5 não forneceu resultados exactos, pedindo-nos para pagar mais dinheiro do que aquele que tínhamos disponível.

Resposta fornecida pelo ChatGPT.

Bard foi bastante genérico. Seguiu o caminho seguro e não forneceu quaisquer números, descrevendo basicamente o que é conhecido como o método da Avalanche de Dívidas.

Resposta fornecida pelo Google Bard.

Forças e fraquezas

Claude 2:

Pontos fracos: Está temporariamente disponível apenas nos EUA e no Reino Unido. O Claude 2 não tem ligação à Internet e pode fornecer informações incorrectas se lhe perguntarem sobre dados actuais do mundo real. Pode cometer erros em tarefas complexas e parecer muito convincente.

ChatGPT:

Fraquezas: Tem capacidades limitadas de manuseamento de contexto em comparação com o Claude 2. A versão gratuita não oferece funcionalidades adicionais e é muito mais limitada e de menor qualidade do que a versão paga. A sua funcionalidade de navegação na Web está temporariamente em pausa e não pode fornecer dados em tempo real. Em algumas tarefas complexas, pode gerar resultados inadequados.

Barba do Google:

Pontos fracos: O Bard suporta menos idiomas do que o ChatGPT. O seu acesso à API é limitado e as suas capacidades de tratamento de contexto são inferiores às do Claude 2. As respostas do Bard podem ser genéricas e pouco úteis em algumas tarefas complexas – o que é um compromisso razoável se o utilizador quiser reduzir o risco de alucinações.

Conclusão

Agora que o campo dos LLMs de IA e dos chatbots tem mais opções disponíveis, não é necessário tornar-se um fanboy do ChatGPT ou entrar no campo exclusivo da Google.

Se estiver hesitante em pagar 20 dólares pelo ChatGPT Plus, considere a possibilidade de utilizar o Claude. Ele oferece uma funcionalidade comparável à do GPT-4 e provavelmente produzirá resultados superiores ao GPT-3.5, que é a versão disponível no ChatGPT gratuito – e será uma escolha melhor do que o Google Bard para a maioria dos utilizadores. Uma caraterística adicional do Claude é a sua capacidade de analisar PDFs e ficheiros com muitas extensões. Pode simplesmente arrastar e largar os ficheiros no programa, à semelhança dos plug-ins pagos disponíveis na subscrição GPT Plus. Portanto, antes de decidir pagar pelo ChatGPT 4, talvez queira experimentar o Claude. Pode poupar-lhe algum dinheiro.

No entanto, cada opção tem pontos fortes e fracos que tornam cada bot mais apelativo para necessidades específicas. O Claude lida com grandes quantidades de dados, mas pode não ser a melhor escolha para tarefas que exigem dados em tempo real. O ChatGPT é mais criativo, o que é perfeito para tarefas que exigem suporte a idiomas específicos (e a sua loja de plug-ins é muito boa se estiver disposto a pagar o preço). Por outro lado, o Bard é mais factual, preciso e tira partido da sua conetividade com a Internet, mas pode não ser o melhor para tarefas criativas.

No final, porquê escolher um? Não precisa de decidir qual é o melhor – pode utilizá-los a todos.

O Claude 2 foi lançado – como é que o chatbot de IA da Anthropic se compara ao ChatGPT e ao Google Bard?