Home » O Claude 2 foi lançado – como é que o chatbot de IA da Anthropic se compara ao ChatGPT e ao Google Bard?

O Claude 2 foi lançado – como é que o chatbot de IA da Anthropic se compara ao ChatGPT e ao Google Bard?

by v

Anthropic, a empresa de IA lançada por ex-pesquisadores da OpenAI, revelou seu chatbot atualizado, Claude 2, visando diretamente rivais como ChatGPT e Google Bard.

Apenas cinco meses após a estreia do Claude, o seu sucessor apresenta respostas mais longas, raciocínio diferenciado e desempenho superior, com uma pontuação impressionante nos exames de leitura e escrita GRE.

O Claude 2 foi caracterizado como uma potência de IA capaz de digerir até 100.000 tokens, o equivalente a 75.000 palavras, numa única pergunta. Este é um salto dramático em relação ao anterior limite de 9.000 tokens do Claude, que apresenta uma vantagem única: a capacidade da IA de fornecer respostas de uma forma mais contextual e melhorada.

O novo modelo fez progressos significativos em vários campos, incluindo direito, matemática e codificação, avaliados através de testes padronizados. De acordo com a Anthropic, o Claude 2 obteve 76,5% na secção de escolha múltipla do exame da Ordem dos Advogados (o GPT-3.5 obteve 50,3%) e alcançou uma pontuação superior a 90% dos candidatos a cursos de pós-graduação nos exames de leitura e escrita do GRE. O Claude 2 também obteve uma pontuação de 71,2% no teste de codificação Codex HumanEval Python e 88,0% nos problemas de matemática do ensino básico GSM8k, revelando as suas capacidades computacionais avançadas.
Preço:

  • ChatGPT: Gratuito para quem usa a versão GPT-3.5. Quem quiser usar a versão mais potente do GPT-4 terá de pagar 20 dólares por mês pela versão ChatGPT Plus.
  • Claude: Grátis
  • Bard: Grátis

Disponibilidade:

  • ChatGPT: É o mais amplamente disponível dos três.
  • Bard: Está disponível em menos países do que o ChatGPT.
  • Claude: Temporariamente disponível nos EUA e no Reino Unido.

Privacidade:

  • ChatGPT: Permite aos utilizadores eliminar as suas interacções. Não suporta a navegação através de VPN.
  • Bard: Tem uma opção para eliminar automaticamente as interacções em 18 meses. Não permite que os utilizadores recuperem interacções anteriores. Suporta VPNs, o que o torna virtualmente disponível em qualquer parte do mundo, contornando restrições políticas.
  • Claude: permite que os utilizadores apaguem as suas conversas. Suporta a navegação VPN.

Línguas suportadas:

  • ChatGPT: Suporta mais de 80 idiomas.
  • Bard: Suporta inglês, japonês e coreano.
  • Claude: Suporta vários idiomas comuns, como inglês, espanhol, português, francês, mandarim e alemão, entre outros. Se não reconhecer um idioma (ou se a entrada tiver muitos erros gramaticais), fornece uma frase introdutória e, em seguida, responde em inglês.

Tratamento do contexto:

  • ChatGPT: A versão gratuita suporta 7.096 tokens de contexto, o ChatGPT Plus (GPT-4) suporta 8.192 tokens. A OpenAI oferece uma versão que suporta 32K tokens, mas não é utilizada pelo ChatGPT.
  • Bard: Suporta 8.196 tokens de contexto.
  • Claude: Suporta 100.000 tokens de contexto – não é um erro de digitação.

Características:

  • ChatGPT: A versão gratuita não tem funcionalidades adicionais. O GPT Plus oferece uma loja de plug-ins, um intérprete de código e um recurso de navegação na Web temporariamente pausado, desenvolvido pelo Microsoft Bing. Fornece suporte à API.
  • Bard: o chatbot ainda está em fase experimental, mas terá uma loja de plug-ins e integração com o Google Suite. Fornece acesso limitado à sua API.
  • Claude: O chatbot pode ser adicionado ao Slack e lidar com diferentes tarefas, como resumir tópicos, dar sugestões, fazer brainstorming, etc. Oferece suporte à API.

A batalha dos prompts: ChatGPT vs Bard vs Claude

TCN usou o mesmo prompt para comparar os resultados obtidos pelos três chatbots.

Compreender línguas estrangeiras

Primeiro, pedimos o significado de uma frase de calão comum em espanhol. O Claude provou ser mais cuidadoso e preciso na sua explicação, o ChatGPT deu uma explicação suficientemente boa, mas o Bard recusou-se a responder, argumentando que não sabia falar espanhol. No entanto, assim que reformulámos a nossa pergunta de “o que significa isto” para “o que é o equivalente em inglês a”, deu uma resposta melhor do que a fornecida pelo ChatGPT, embora menos extensa do que a do Claude AI.

Resposta fornecida por Claude 2.

Resposta fornecida por Claude 2.


Resposta fornecida por ChatGPT.

Resposta fornecida por ChatGPT.


Resposta fornecida pelo Google Bard.

Resposta fornecida pelo Google Bard.

Informação actualizada

De seguida, perguntámos aos modelos qual o preço do Bitcoin hoje. Isso não apenas testa os recursos de navegação na Web, mas também mede a quantidade de informações que cada um fornece com base em um único pedido.

O ChatGPT falhou. Não está ligado à Internet, pelo que não pode fornecer informações actualizadas. O Claude também não tem ligação à Internet. Ao contrário do ChatGPT, no entanto, ele alucinou uma resposta com informações incorrectas. Se um utilizador fizesse uma pergunta assumindo que o Cláudio tem uma ligação à Internet, receberia uma resposta errada que apareceria como correcta. O Google Bard forneceu a informação correcta.

Resposta fornecida por ChatGPT.

Resposta fornecida por ChatGPT.


Resposta fornecida por Claude 2.

Resposta fornecida por Claude 2.


Resposta fornecida por Google Bard.

Resposta fornecida por Google Bard.

Tratamento do contexto

De seguida, testámos os modelos quanto à sua capacidade de lidar com grandes blocos de texto. Utilizámos a Bíblia como exemplo e copiámos todo o texto de Génesis 1:1 a Êxodo 25:39 (quase 62 mil palavras). De seguida, fizemos uma pergunta muito específica a partir da história apresentada no texto.

O único modelo capaz de dar uma resposta foi o Cláudio, como esperado. Demorou cerca de 2 minutos a processar a pergunta, mas deu uma resposta correcta. Utilizámos marcadores específicos para garantir que não estava a fazer batota e que estava, de facto, a analisar o texto, e provou estar à altura da tarefa.

Resposta dada pelo Cláudio 2.

Resposta dada pelo Cláudio 2.

Habilidades não verbais

Finalmente, pedimos aos modelos para lidarem com algumas tarefas matemáticas. Os LLMs de IA não foram realmente concebidos para o fazer, e o ChatGPT Plus com GPT-4 é provavelmente a melhor opção entre os três com o seu interpretador de código. No entanto, testámos os três modelos e pedimos-lhes que criassem um plano de pagamento para uma pessoa que está a tentar saldar as suas dívidas de cartão de crédito. Também pedimos aos modelos que classificassem quais os cartões que devem ser utilizados e quais os que devem ser evitados.

O Claude deu as respostas mais completas em termos do plano. No entanto, cometeu um erro e recomendou-nos que déssemos prioridade às despesas com o cartão com a TAEG mais elevada.

Resposta dada por Cláudio 2.

Resposta dada por Cláudio 2.


O intérprete de código do ChatGPT deu uma resposta em que pagamos a mais num dos cartões, o que não é muito útil se alguém tiver dívidas noutros cartões.

Resposta fornecida pelo ChatGPT utilizando o intérprete de código.

Resposta fornecida pelo ChatGPT utilizando o intérprete de código.


GPT 3.5 não forneceu resultados exactos, pedindo-nos para pagar mais dinheiro do que aquele que tínhamos disponível.

Resposta fornecida pelo ChatGPT.

Resposta fornecida pelo ChatGPT.


O

Bard foi bastante genérico. Seguiu o caminho seguro e não forneceu quaisquer números, descrevendo basicamente o que é conhecido como o método da Avalanche de Dívidas.

Resposta fornecida pelo Google Bard.

Resposta fornecida pelo Google Bard.

Forças e fraquezas

Claude 2:

    Pontos fracos: Está temporariamente disponível apenas nos EUA e no Reino Unido. O Claude 2 não tem ligação à Internet e pode fornecer informações incorrectas se lhe perguntarem sobre dados actuais do mundo real. Pode cometer erros em tarefas complexas e parecer muito convincente.

ChatGPT:

    Pontos fortes: ChatGPT é o mais amplamente disponível dos três modelos, suportando mais de 80 idiomas. Ele também oferece suporte a API e uma loja de plugins na versão ChatGPT Plus.
  • Fraquezas: Tem capacidades limitadas de manuseamento de contexto em comparação com o Claude 2. A versão gratuita não oferece funcionalidades adicionais e é muito mais limitada e de menor qualidade do que a versão paga. A sua funcionalidade de navegação na Web está temporariamente em pausa e não pode fornecer dados em tempo real. Em algumas tarefas complexas, pode gerar resultados inadequados.

Barba do Google:

    Pontos fracos: O Bard suporta menos idiomas do que o ChatGPT. O seu acesso à API é limitado e as suas capacidades de tratamento de contexto são inferiores às do Claude 2. As respostas do Bard podem ser genéricas e pouco úteis em algumas tarefas complexas – o que é um compromisso razoável se o utilizador quiser reduzir o risco de alucinações.

Conclusão

Agora que o campo dos LLMs de IA e dos chatbots tem mais opções disponíveis, não é necessário tornar-se um fanboy do ChatGPT ou entrar no campo exclusivo da Google.

Se estiver hesitante em pagar 20 dólares pelo ChatGPT Plus, considere a possibilidade de utilizar o Claude. Ele oferece uma funcionalidade comparável à do GPT-4 e provavelmente produzirá resultados superiores ao GPT-3.5, que é a versão disponível no ChatGPT gratuito – e será uma escolha melhor do que o Google Bard para a maioria dos utilizadores. Uma caraterística adicional do Claude é a sua capacidade de analisar PDFs e ficheiros com muitas extensões. Pode simplesmente arrastar e largar os ficheiros no programa, à semelhança dos plug-ins pagos disponíveis na subscrição GPT Plus. Portanto, antes de decidir pagar pelo ChatGPT 4, talvez queira experimentar o Claude. Pode poupar-lhe algum dinheiro.

No entanto, cada opção tem pontos fortes e fracos que tornam cada bot mais apelativo para necessidades específicas. O Claude lida com grandes quantidades de dados, mas pode não ser a melhor escolha para tarefas que exigem dados em tempo real. O ChatGPT é mais criativo, o que é perfeito para tarefas que exigem suporte a idiomas específicos (e a sua loja de plug-ins é muito boa se estiver disposto a pagar o preço). Por outro lado, o Bard é mais factual, preciso e tira partido da sua conetividade com a Internet, mas pode não ser o melhor para tarefas criativas.

No final, porquê escolher um? Não precisa de decidir qual é o melhor – pode utilizá-los a todos.

Related Posts

Leave a Comment