Même la pire version de Claude AI est meilleure que GPT 3.5, selon les chercheurs

L’industrie de l’IA est témoin d’une compétition passionnante entre les modèles ChatGPT et Claude AI. La Large Model Systems Organization (LMSO), responsable de la création de la Chatbot Arena et du célèbre modèle Vicuna, vient de mettre à jour le classement de la Chatbot Arena, qui reflète la façon dont chaque chatbot d’IA se mesure à ses concurrents. Il s’avère qu’Anthropic donne du fil à retordre à OpenAI, même si ses modèles sont encore gratuits.

GPT-4, le moteur de ChatGPT Plus et de Bing AI, règne en maître avec le score le plus élevé, établissant l’étalon-or pour les grands modèles de langage (LLM). Mais au fur et à mesure que nous descendons dans le classement, un outsider inattendu fait son apparition. Les modèles Claude d’Anthropic – Claude 1, Claude 2 et Claude Instant – sont tous plus performants que GPT-3.5, le moteur de la version gratuite de ChatGPT. Cela signifie que chaque Grand Modèle de Langage développé par Anthropic peut surpasser la version gratuite de ChatGPT.

Le système de classement méticuleux du LMSO a permis de mieux comprendre les performances de ces modèles. D’après le classement, le GPT-4 détient une note Elo de 1181, ce qui le place largement en tête, tandis que les modèles Claude le suivent de près avec des notes allant de 1119 à 1155. Le modèle GPT-3.5, quant à lui, est à la traîne avec une note de 1115.

Pour classer les modèles, le LMSO les fait « s’affronter » dans des matchs avec des questions similaires. Le modèle qui obtient la meilleure réponse gagne et l’autre perd. Les utilisateurs décident qui gagne en fonction de leurs propres préférences, mais ils ne savent jamais quels modèles sont en compétition.

Image : LMSO

Comme TCN l’a déjà signalé, la différence de capacité de traitement des jetons entre ChatGPT Plus et Claude Pro, bien qu’elle ne soit pas un facteur dans le classement LMSO, est également un avantage majeur des modèles Claude par rapport à GPT.

« Claude Pro, basé sur le LLM Claude 2, peut traiter jusqu’à 100 000 jetons d’information, tandis que ChatGPT Plus, basé sur le LLM GPT-4, traite 8 192 jetons », avons-nous rappelé. Cette différence dans la capacité de traitement des jetons souligne l’avantage des modèles de Claude dans la gestion d’entrées contextuelles étendues, ce qui est crucial pour une expérience nuancée et enrichie de l’utilisateur.

En outre, lorsqu’il s’agit de traiter de longues invites, Claude 2 a montré sa supériorité par rapport à GPT, en traitant plus efficacement les invites de grande taille. Cependant, lorsque les invites sont comparables, Claude 1 et Claude Instant fournissent des résultats similaires ou légèrement supérieurs à GPT-3.5, mettant en évidence la nature compétitive de ces modèles. Grâce aux capacités contextuelles de Claude, une mauvaise réponse initiale peut être considérablement améliorée par une invite plus raffinée, plus grande et plus riche.

Les modèles libres ne sont pas loin dans cette course.

WizardLM, un modèle entraîné sur LlaMA-2 de Meta avec 70 milliards de paramètres, se distingue comme le meilleur LLM open-source. Il est suivi de près par Vicuna 33B et le LlaMA-2 original, publié par Meta.

Le @lmsysorg vient de mettre à jour le classement du Chatbot Arena !

Notre WizardLM-70B est désormais leTop-1 modèle open-source à la fois sur ⚔️Arena Elo et MT-bench.

❤️Main Contributeurs:@CanXu20 @victorsungo_ai @ChiYeung_Law @hpluo12 @tangmensan

Classement : https://t.co/1gkZKGVutQ
Modèle… pic.twitter.com/bsJ0jv2i7I

– WizardLM (@WizardLM_AI) October 5, 2023

Les modèles à source ouverte jouent un rôle important dans le développement de l’espace IA pour différentes raisons. Ils peuvent être exécutés localement, ce qui donne aux utilisateurs la possibilité de les affiner et engage la communauté dans un effort collectif pour perfectionner le modèle. Ils sont également moins chers à exploiter en raison de leurs licences, ce qui explique pourquoi l’espace compte des dizaines de LLM open-source et seulement une poignée de modèles propriétaires.

Mais le jeu des chatbots d’IA n’est pas seulement une question de chiffres. Il s’agit d’implications dans le monde réel.

À mesure que les chatbots s’intègrent dans divers secteurs, du service client aux assistants personnels, leur efficacité, leur adaptabilité et leur précision deviennent primordiales. Les modèles de Claude se classant au-dessus de GPT-3.5, les entreprises et les utilisateurs individuels peuvent se trouver à la croisée des chemins, évaluant le modèle qui correspond le mieux à leurs besoins. TCN a préparé deux guides pour vous aider à choisir le modèle qui vous convient le mieux.

Pour les non-initiés, il peut s’agir d’une énième mise à jour du classement. Mais pour ceux qui suivent de près l’industrie de l’IA, c’est un témoignage de la férocité de la concurrence et de la rapidité avec laquelle les marées peuvent tourner. Et pour ceux d’entre nous qui se situent entre ces deux camps, c’est un rappel que dans le monde de l’IA, le modèle le plus populaire d’aujourd’hui pourrait être remplacé par le plus efficace.

Même la pire version de Claude AI est meilleure que GPT 3.5, selon les chercheurs

Le jeu Cyberpunk 2077 se vend à 25 millions d’exemplaires et devient hollywoodien

Yuga Labs, créateur du NFT Bored Ape Yacht Club, confirme des licenciements

Related Posts

Leave a Comment Cancel Reply