Home » Claude 2 est sorti – Comment le chatbot d’Anthropic se compare-t-il à ChatGPT et Google Bard ?

Claude 2 est sorti – Comment le chatbot d’Anthropic se compare-t-il à ChatGPT et Google Bard ?

by v

Anthropic, la société d’IA lancée par d’anciens chercheurs de l’OpenAI, a dévoilé son chatbot mis à jour, Claude 2, qui vise directement des rivaux comme ChatGPT et Google Bard.

Cinq mois à peine après les débuts de Claude, son successeur propose des réponses plus longues, un raisonnement nuancé et des performances supérieures, avec des résultats impressionnants aux examens de lecture et d’écriture du GRE.

Claude 2 a été décrit comme une centrale d’intelligence artificielle capable d’assimiler jusqu’à 100 000 tokens, soit l’équivalent de 75 000 mots, dans un seul message. Il s’agit d’un bond spectaculaire par rapport à la limite précédente de 9 000 mots, qui présente un avantage unique : la capacité de l’IA à fournir des réponses plus contextuelles et améliorées.

Le nouveau modèle a fait des progrès significatifs dans de nombreux domaines, dont le droit, les mathématiques et le codage, évalués par des tests standardisés. Selon Anthropic, Claude 2 a obtenu un score de 76,5 % dans la section à choix multiples de l’examen du barreau (GPT-3.5 a obtenu 50,3 %) et a obtenu un score supérieur à 90 % des candidats aux études supérieures dans les examens de lecture et d’écriture du GRE. Claude 2 a également obtenu un score de 71,2 % au test de codage Codex HumanEval Python et un score de 88,0 % aux problèmes mathématiques GSM8k de l’école primaire, révélant ainsi ses compétences avancées en matière de calcul.

Comme le rapporte TCN, le Claude d’Anthropic est doté d’une « constitution » unique, un ensemble de règles inspirées de la Déclaration universelle des droits de l’homme, qui lui permet de s’améliorer sans rétroaction humaine, d’identifier les comportements inappropriés et d’adapter sa propre conduite.

Mais comment se situe-t-il par rapport aux deux monarques de la colline, ChatGPT et le nouveau Bard de Google ? Commençons par les spécifications.

Prix:

  • ChatGPT : Gratuit pour ceux qui utilisent la version GPT-3.5. Ceux qui veulent utiliser la version plus puissante GPT-4 devront payer 20$ par mois pour la version ChatGPT Plus.
  • Claude : Gratuit
  • Bard : Gratuit

Disponibilité:

  • ChatGPT : C’est le plus disponible des trois.
  • Bard : Est disponible dans moins de pays que ChatGPT.
  • Claude : Temporairement disponible aux États-Unis et au Royaume-Uni.

Privacy:

  • ChatGPT : Permet aux utilisateurs de supprimer leurs interactions. Ne prend pas en charge la navigation par VPN.
  • Bard : Dispose d’une option permettant de supprimer automatiquement les interactions dans 18 mois. Ne permet pas aux utilisateurs de récupérer les interactions précédentes. Prend en charge les VPN, ce qui le rend virtuellement disponible dans n’importe quelle partie du monde, en contournant les restrictions politiques.
  • Claude : Permet aux utilisateurs de supprimer leurs conversations. Prend en charge la navigation VPN.

Langues supportées:

  • ChatGPT : Prend en charge plus de 80 langues.
  • Bard : Prend en charge l’anglais, le japonais et le coréen.
  • Claude : Prend en charge plusieurs langues très répandues comme l’anglais, l’espagnol, le portugais, le français, le mandarin et l’allemand, entre autres. S’il ne reconnaît pas une langue (ou si la saisie comporte de nombreuses fautes de grammaire), il fournit une phrase d’introduction et répond ensuite en anglais.

Gestion du contexte:

  • ChatGPT : La version gratuite prend en charge 7 096 jetons de contexte, ChatGPT Plus (GPT-4) prend en charge 8 192 jetons. OpenAI propose une version qui prend en charge 32 000 jetons, mais elle n’est pas utilisée par ChatGPT.
  • Bard : Prend en charge 8 196 jetons de contexte.
  • Claude : Prend en charge 100 000 jetons de contexte – ce n’est pas une faute de frappe.

Caractéristiques:

  • ChatGPT : La version gratuite n’offre aucune fonctionnalité supplémentaire. GPT Plus offre un magasin de plugins, un interpréteur de code et une fonction de navigation web temporairement interrompue, optimisée par Microsoft Bing. Prise en charge de l’API.
  • Bard : Ce chatbot est encore en phase d’expérimentation, mais il disposera d’un magasin de plugins et d’une intégration à Google Suite. Offre un accès limité à son API.
  • Claude : Le chatbot peut être ajouté à Slack et gérer différentes tâches comme résumer des discussions, fournir des suggestions, faire du brainstorming, etc. Prise en charge de l’API.

La bataille des prompteurs : ChatGPT vs Bard vs Claude

TCN a utilisé la même invite pour comparer les résultats obtenus par les trois chatbots

Compréhension des langues étrangères

Dans un premier temps, nous avons demandé la signification d’une expression argotique espagnole courante. Claude s’est montré plus prudent et plus précis dans son explication, ChatGPT a fourni une explication assez bonne, mais Bard a refusé de répondre, arguant qu’il ne parlait pas espagnol. Cependant, une fois que nous avons reformulé notre demande de « what does this mean » à « what is the English equivalent to », il a fourni une meilleure réponse que celle fournie par ChatGPT, bien qu’elle soit moins complète que celle de Claude AI.

Réponse fournie par Claude 2.

Réponse fournie par Claude 2.


Réponse fournie par ChatGPT.

Réponse fournie par ChatGPT.


Réponse fournie par Google Bard.

Réponse fournie par Google Bard.

Informations actualisées

Puis, nous avons demandé aux modèles le prix du bitcoin aujourd’hui. Cela permet non seulement de tester les fonctions de navigation sur le web, mais aussi d’évaluer la quantité d’informations fournies par chacun d’entre eux sur la base d’une seule commande.

ChatGPT a échoué. Il n’est pas connecté à Internet et ne peut donc pas fournir d’informations actualisées. Claude n’a pas non plus de connexion internet. Cependant, contrairement à ChatGPT, il a halluciné une réponse contenant des informations incorrectes. Si un utilisateur posait une question en supposant que Claude dispose d’une connexion internet, il recevrait une réponse erronée qui apparaîtrait comme correcte. Google Bard a fourni les informations correctes.

Réponse fournie par ChatGPT.

Réponse fournie par ChatGPT.


Réponse fournie par Claude 2.

Réponse fournie par Claude 2.


Réponse fournie par Google Bard.

Réponse fournie par Google Bard.

Gestion du contexte

Par la suite, nous avons mis les modèles à l’épreuve quant à leur capacité à traiter de gros morceaux de texte. Nous avons utilisé la Bible comme exemple et copié tout le texte de Genèse 1:1 à Exode 25:39 (près de 62 000 mots). Nous avons ensuite posé une question très précise à partir de l’histoire contenue dans le texte.

Le seul modèle capable de fournir une réponse a été Claude, comme prévu. Il lui a fallu environ 2 minutes pour traiter la question, mais il a fourni une réponse précise. Nous avons utilisé des marqueurs spécifiques pour nous assurer qu’il ne trichait pas et qu’il analysait bien le texte, et il s’est montré à la hauteur de la tâche.

Réponse fournie par Claude 2.

Réponse fournie par Claude 2.

Capacités non verbales

Enfin, nous avons demandé aux modèles d’effectuer quelques tâches mathématiques. Les LLM d’IA ne sont pas vraiment conçus pour cela, et ChatGPT Plus avec GPT-4 est probablement la meilleure option parmi les trois avec son interprète de code. Cependant, nous avons testé les trois modèles et leur avons demandé de créer un plan de paiement pour une personne essayant d’apurer ses dettes de carte de crédit. Nous avons également demandé aux modèles de classer les cartes à utiliser et celles à éviter.

Claude a fourni les réponses les plus complètes en termes de plan. Il a cependant commis une erreur en nous recommandant de dépenser en priorité sur la carte dont le TAEG est le plus élevé.

Réponse fournie par Claude 2.

Réponse fournie par Claude 2.


L’interprète du code de ChatGPT a fourni une réponse où l’on surpaye une des cartes, ce qui n’est pas vraiment utile si quelqu’un a des dettes sur d’autres cartes.

Réponse fournie par ChatGPT à l'aide d'un interprète de code.

Réponse fournie par ChatGPT à l’aide d’un interprète de code.


GPT 3.5 n’a pas fourni de résultats précis, nous demandant de payer plus d’argent que ce dont nous disposions réellement.

Réponse fournie par ChatGPT.

Réponse fournie par ChatGPT.


Bard était assez générique. Il a choisi la voie de la sécurité et n’a pas fourni de chiffres, décrivant essentiellement ce que l’on appelle la méthode de l’avalanche de dettes.

Réponse fournie par Google Bard.

Réponse fournie par Google Bard.

Forts et faiblesses

Claude 2:

  • Forces : Claude 2 a une capacité impressionnante à gérer des contextes de grande taille, jusqu’à 100 000 jetons. Il fait preuve de performances supérieures dans divers domaines tels que le droit, les mathématiques et le codage, et obtient d’excellents résultats aux tests standardisés. Il est capable de s’améliorer et de s’adapter sans rétroaction humaine, et prend en charge la navigation VPN. Le chatbot peut également être ajouté à Slack pour la gestion des tâches et fournit un support API.
  • Faiblesses : Il n’est temporairement disponible qu’aux États-Unis et au Royaume-Uni. Claude 2 ne dispose pas d’une connexion internet et peut fournir des informations incorrectes si on lui demande des données réelles actuelles. Il peut se tromper dans des tâches complexes et donner l’impression d’être très convaincant.

ChatGPT:

    Points forts : ChatGPT est le plus répandu des trois modèles, car il prend en charge plus de 80 langues. Il offre également un support API et un magasin de plugins dans la version ChatGPT Plus.
  • Faiblesses : Les capacités de gestion du contexte sont limitées par rapport à Claude 2. La version gratuite n’offre pas de fonctionnalités supplémentaires et est beaucoup plus limitée et de moindre qualité que la version payante. Sa fonction de navigation sur le web est temporairement interrompue et ne peut pas fournir de données en temps réel. Dans certaines tâches complexes, il peut générer des résultats inappropriés.

Google’s Bard:

  • Forts : Bard prend en charge la navigation VPN. Il peut fournir des données en temps réel grâce à sa connexion à Internet. Bard prévoit également de s’intégrer à Google Suite et de proposer un magasin de plugins.
  • Faiblesses : Bard prend en charge moins de langues que ChatGPT. Son accès à l’API est limité et ses capacités de gestion du contexte sont inférieures à celles de Claude 2. Les réponses de Bard peuvent être génériques et peu utiles pour certaines tâches complexes, ce qui est un compromis raisonnable si l’utilisateur souhaite réduire le risque d’hallucinations.

Conclusion

Maintenant que le domaine des LLM d’IA et des chatbots dispose de plus d’options, il n’est pas forcément nécessaire de devenir un fanboy de ChatGPT ou d’entrer dans le camp des exclusifs de Google.

Si vous hésitez à payer 20 dollars pour ChatGPT Plus, envisagez d’utiliser Claude. Il offre des fonctionnalités comparables à GPT-4, et produira probablement des résultats supérieurs à GPT-3.5, qui est la version disponible dans le ChatGPT gratuit – et il sera un meilleur choix que Google Bard pour la plupart des utilisateurs. Une autre caractéristique de Claude est sa capacité à analyser les PDF et les fichiers avec de nombreuses extensions. Vous pouvez simplement glisser et déposer les fichiers dans le programme, de la même manière que les plugins payants disponibles dans l’abonnement GPT Plus. Ainsi, avant de décider de payer pour ChatGPT 4, vous pouvez essayer Claude. Il pourrait vous faire économiser de l’argent.

Cependant, chaque option présente des forces et des faiblesses qui rendent chaque bot plus attrayant pour des besoins spécifiques. Claude gère de grandes quantités de données, mais n’est peut-être pas le meilleur choix pour les tâches nécessitant des données en temps réel. ChatGPT est plus créatif, ce qui est parfait pour les tâches nécessitant un support linguistique spécifique (et son magasin de plugins est vraiment bon si vous êtes prêt à payer le prix). D’un autre côté, Bard est plus factuel, plus précis et tire parti de sa connectivité internet, mais il n’est peut-être pas le meilleur pour les tâches créatives.

En fin de compte, pourquoi en choisir un ? Vous n’avez pas besoin de décider lequel est le meilleur, vous pouvez les utiliser tous.

Related Posts

Leave a Comment