Anthropic, a empresa de IA lançada por ex-pesquisadores da OpenAI, revelou seu chatbot atualizado, Claude 2, visando diretamente rivais como ChatGPT e Google Bard.
Apenas cinco meses após a estreia do Claude, o seu sucessor apresenta respostas mais longas, raciocínio diferenciado e desempenho superior, com uma pontuação impressionante nos exames de leitura e escrita GRE.
O Claude 2 foi caracterizado como uma potência de IA capaz de digerir até 100.000 tokens, o equivalente a 75.000 palavras, numa única pergunta. Este é um salto dramático em relação ao anterior limite de 9.000 tokens do Claude, que apresenta uma vantagem única: a capacidade da IA de fornecer respostas de uma forma mais contextual e melhorada.
O novo modelo fez progressos significativos em vários campos, incluindo direito, matemática e codificação, avaliados através de testes padronizados. De acordo com a Anthropic, o Claude 2 obteve 76,5% na secção de escolha múltipla do exame da Ordem dos Advogados (o GPT-3.5 obteve 50,3%) e alcançou uma pontuação superior a 90% dos candidatos a cursos de pós-graduação nos exames de leitura e escrita do GRE. O Claude 2 também obteve uma pontuação de 71,2% no teste de codificação Codex HumanEval Python e 88,0% nos problemas de matemática do ensino básico GSM8k, revelando as suas capacidades computacionais avançadas.
Preço:
- ChatGPT: Gratuito para quem usa a versão GPT-3.5. Quem quiser usar a versão mais potente do GPT-4 terá de pagar 20 dólares por mês pela versão ChatGPT Plus.
- Claude: Grátis
- Bard: Grátis
Disponibilidade:
- ChatGPT: É o mais amplamente disponível dos três.
- Bard: Está disponível em menos países do que o ChatGPT.
- Claude: Temporariamente disponível nos EUA e no Reino Unido.
Privacidade:
- ChatGPT: Permite aos utilizadores eliminar as suas interacções. Não suporta a navegação através de VPN.
- Bard: Tem uma opção para eliminar automaticamente as interacções em 18 meses. Não permite que os utilizadores recuperem interacções anteriores. Suporta VPNs, o que o torna virtualmente disponível em qualquer parte do mundo, contornando restrições políticas.
- Claude: permite que os utilizadores apaguem as suas conversas. Suporta a navegação VPN.
Línguas suportadas:
- ChatGPT: Suporta mais de 80 idiomas.
- Bard: Suporta inglês, japonês e coreano.
- Claude: Suporta vários idiomas comuns, como inglês, espanhol, português, francês, mandarim e alemão, entre outros. Se não reconhecer um idioma (ou se a entrada tiver muitos erros gramaticais), fornece uma frase introdutória e, em seguida, responde em inglês.
Tratamento do contexto:
- ChatGPT: A versão gratuita suporta 7.096 tokens de contexto, o ChatGPT Plus (GPT-4) suporta 8.192 tokens. A OpenAI oferece uma versão que suporta 32K tokens, mas não é utilizada pelo ChatGPT.
- Bard: Suporta 8.196 tokens de contexto.
- Claude: Suporta 100.000 tokens de contexto – não é um erro de digitação.
Características:
- ChatGPT: A versão gratuita não tem funcionalidades adicionais. O GPT Plus oferece uma loja de plug-ins, um intérprete de código e um recurso de navegação na Web temporariamente pausado, desenvolvido pelo Microsoft Bing. Fornece suporte à API.
- Bard: o chatbot ainda está em fase experimental, mas terá uma loja de plug-ins e integração com o Google Suite. Fornece acesso limitado à sua API.
- Claude: O chatbot pode ser adicionado ao Slack e lidar com diferentes tarefas, como resumir tópicos, dar sugestões, fazer brainstorming, etc. Oferece suporte à API.
A batalha dos prompts: ChatGPT vs Bard vs Claude
TCN usou o mesmo prompt para comparar os resultados obtidos pelos três chatbots.
Compreender línguas estrangeiras
Primeiro, pedimos o significado de uma frase de calão comum em espanhol. O Claude provou ser mais cuidadoso e preciso na sua explicação, o ChatGPT deu uma explicação suficientemente boa, mas o Bard recusou-se a responder, argumentando que não sabia falar espanhol. No entanto, assim que reformulámos a nossa pergunta de “o que significa isto” para “o que é o equivalente em inglês a”, deu uma resposta melhor do que a fornecida pelo ChatGPT, embora menos extensa do que a do Claude AI.
Informação actualizada
De seguida, perguntámos aos modelos qual o preço do Bitcoin hoje. Isso não apenas testa os recursos de navegação na Web, mas também mede a quantidade de informações que cada um fornece com base em um único pedido.
O ChatGPT falhou. Não está ligado à Internet, pelo que não pode fornecer informações actualizadas. O Claude também não tem ligação à Internet. Ao contrário do ChatGPT, no entanto, ele alucinou uma resposta com informações incorrectas. Se um utilizador fizesse uma pergunta assumindo que o Cláudio tem uma ligação à Internet, receberia uma resposta errada que apareceria como correcta. O Google Bard forneceu a informação correcta.
Tratamento do contexto
De seguida, testámos os modelos quanto à sua capacidade de lidar com grandes blocos de texto. Utilizámos a Bíblia como exemplo e copiámos todo o texto de Génesis 1:1 a Êxodo 25:39 (quase 62 mil palavras). De seguida, fizemos uma pergunta muito específica a partir da história apresentada no texto.
O único modelo capaz de dar uma resposta foi o Cláudio, como esperado. Demorou cerca de 2 minutos a processar a pergunta, mas deu uma resposta correcta. Utilizámos marcadores específicos para garantir que não estava a fazer batota e que estava, de facto, a analisar o texto, e provou estar à altura da tarefa.
Habilidades não verbais
Finalmente, pedimos aos modelos para lidarem com algumas tarefas matemáticas. Os LLMs de IA não foram realmente concebidos para o fazer, e o ChatGPT Plus com GPT-4 é provavelmente a melhor opção entre os três com o seu interpretador de código. No entanto, testámos os três modelos e pedimos-lhes que criassem um plano de pagamento para uma pessoa que está a tentar saldar as suas dívidas de cartão de crédito. Também pedimos aos modelos que classificassem quais os cartões que devem ser utilizados e quais os que devem ser evitados.
O Claude deu as respostas mais completas em termos do plano. No entanto, cometeu um erro e recomendou-nos que déssemos prioridade às despesas com o cartão com a TAEG mais elevada.
O intérprete de código do ChatGPT deu uma resposta em que pagamos a mais num dos cartões, o que não é muito útil se alguém tiver dívidas noutros cartões.
GPT 3.5 não forneceu resultados exactos, pedindo-nos para pagar mais dinheiro do que aquele que tínhamos disponível.
O
Bard foi bastante genérico. Seguiu o caminho seguro e não forneceu quaisquer números, descrevendo basicamente o que é conhecido como o método da Avalanche de Dívidas.
Forças e fraquezas
Claude 2:
- Pontos fracos: Está temporariamente disponível apenas nos EUA e no Reino Unido. O Claude 2 não tem ligação à Internet e pode fornecer informações incorrectas se lhe perguntarem sobre dados actuais do mundo real. Pode cometer erros em tarefas complexas e parecer muito convincente.
ChatGPT:
- Pontos fortes: ChatGPT é o mais amplamente disponível dos três modelos, suportando mais de 80 idiomas. Ele também oferece suporte a API e uma loja de plugins na versão ChatGPT Plus.
- Fraquezas: Tem capacidades limitadas de manuseamento de contexto em comparação com o Claude 2. A versão gratuita não oferece funcionalidades adicionais e é muito mais limitada e de menor qualidade do que a versão paga. A sua funcionalidade de navegação na Web está temporariamente em pausa e não pode fornecer dados em tempo real. Em algumas tarefas complexas, pode gerar resultados inadequados.
Barba do Google:
- Pontos fracos: O Bard suporta menos idiomas do que o ChatGPT. O seu acesso à API é limitado e as suas capacidades de tratamento de contexto são inferiores às do Claude 2. As respostas do Bard podem ser genéricas e pouco úteis em algumas tarefas complexas – o que é um compromisso razoável se o utilizador quiser reduzir o risco de alucinações.
Conclusão
Agora que o campo dos LLMs de IA e dos chatbots tem mais opções disponíveis, não é necessário tornar-se um fanboy do ChatGPT ou entrar no campo exclusivo da Google.
Se estiver hesitante em pagar 20 dólares pelo ChatGPT Plus, considere a possibilidade de utilizar o Claude. Ele oferece uma funcionalidade comparável à do GPT-4 e provavelmente produzirá resultados superiores ao GPT-3.5, que é a versão disponível no ChatGPT gratuito – e será uma escolha melhor do que o Google Bard para a maioria dos utilizadores. Uma caraterística adicional do Claude é a sua capacidade de analisar PDFs e ficheiros com muitas extensões. Pode simplesmente arrastar e largar os ficheiros no programa, à semelhança dos plug-ins pagos disponíveis na subscrição GPT Plus. Portanto, antes de decidir pagar pelo ChatGPT 4, talvez queira experimentar o Claude. Pode poupar-lhe algum dinheiro.
No entanto, cada opção tem pontos fortes e fracos que tornam cada bot mais apelativo para necessidades específicas. O Claude lida com grandes quantidades de dados, mas pode não ser a melhor escolha para tarefas que exigem dados em tempo real. O ChatGPT é mais criativo, o que é perfeito para tarefas que exigem suporte a idiomas específicos (e a sua loja de plug-ins é muito boa se estiver disposto a pagar o preço). Por outro lado, o Bard é mais factual, preciso e tira partido da sua conetividade com a Internet, mas pode não ser o melhor para tarefas criativas.
No final, porquê escolher um? Não precisa de decidir qual é o melhor – pode utilizá-los a todos.