Anthropic met à jour Claude avec près de deux fois les capacités de GPT-4 Turbo

Anthropic vient de publier Claude 2.1, un grand modèle de langage (LLM) qui offre une fenêtre de contexte de 200 000 mots, une caractéristique qui surpasse le contexte de 120 000 mots récemment annoncé pour GPT-4 Turbo par OpenAI.

Cette version stratégique apporte des prouesses en matière de traitement du contexte qui doublent presque celles de son plus proche rival, et est le fruit d’un partenariat étendu avec Google qui a permis à la startup d’utiliser ses unités de traitement tensoriel les plus avancées.

« Notre nouveau modèle Claude 2.1 offre une fenêtre contextuelle de 200 000 jetons, une diminution de 2 fois des taux d’hallucination, des invites du système, l’utilisation d’outils et une mise à jour des prix », a déclaré Anthropic dans un tweet plus tôt aujourd’hui. L’introduction de Claude 2.1 répond à la demande croissante d’une IA capable de traiter et d’analyser des documents longs avec précision.

Notre nouveau modèle Claude 2.1 offre une fenêtre contextuelle de 200 000 jetons, une diminution de 2 fois des taux d’hallucination, des messages-guides, l’utilisation d’outils et une mise à jour des prix.

Claude 2.1 est disponible via API dans notre Console, et alimente notre expérience de chat https://t.co/uLbS2JNczH pic.twitter.com/T1XdQreluH

– Anthropic (@AnthropicAI) Le 21 novembre 2023

Cette nouvelle mise à jour signifie que les utilisateurs de Claude peuvent maintenant s’engager dans des documents aussi vastes que des bases de code entières ou des épopées littéraires classiques, libérant ainsi le potentiel de diverses applications allant de l’analyse juridique à la critique littéraire.

Le chercheur en IA Greg Kamradt a rapidement mis le modèle Claude 2.1 à l’épreuve. Il a constaté que le modèle d’OpenAI était plus cohérent lorsque le nombre de jetons était plus faible, mais que Claude obtenait des résultats plus variés en fonction de la longueur des messages.

« À partir d’environ 90 000 jetons, les performances de rappel au bas du document ont commencé à se dégrader de plus en plus », conclut-il. Son enquête a révélé des niveaux de dégradation similaires pour GPT -4 Turbo à partir d’environ 65 000 jetons. « Je suis un grand fan d’Anthropic – ils aident à repousser les limites des performances LLM et créent des outils puissants pour le monde », a-t-il posté.

Claude 2.1 (200K Tokens) – Test de pression sur le rappel de contexte long

Nous aimons tous augmenter la longueur des contextes, mais qu’en est-il de la performance ?

Anthropic m’a proposé un accès anticipé à Claude 2.1, j’ai donc répété l’analyse « aiguille dans botte de foin » que j’avais faite sur GPT-4

Voici ce que j’ai trouvé :… pic.twitter.com/B36KnjtJmE

– Greg Kamradt (@GregKamradt) November 21, 2023

L’engagement d’Anthropic à réduire les erreurs d’IA est évident dans l’amélioration de la précision de Claude 2.1, qui revendique une réduction de 50 % des taux d’hallucinations. Cela revient à doubler la véracité par rapport à Claude 2.0. Ces améliorations ont été rigoureusement testées à l’aide d’un ensemble solide de questions factuelles complexes destinées à remettre en cause les limites des modèles actuels. Comme TCN l’a déjà signalé, les hallucinations étaient l’une des faiblesses de Claude. Une augmentation aussi radicale de la précision mettrait le LLM en concurrence plus étroite avec le GPT-4.

Avec l’introduction d’une fonction d’utilisation d’outils API, Claude 2.1 s’intègre également de manière plus transparente dans les flux de travail des utilisateurs avancés, en démontrant sa capacité à orchestrer différentes fonctions, à effectuer des recherches sur le web et à puiser dans des bases de données privées. Bien qu’encore en version bêta, cette fonctionnalité promet d’étendre l’utilité de Claude à travers un spectre d’opérations, du raisonnement numérique complexe à la recommandation de produits.

En outre, Claude 2.1 d’Anthropic comporte des « invites système », conçues pour élever l’interaction entre l’utilisateur et l’IA. Ces invites permettent aux utilisateurs de définir les tâches de Claude en spécifiant des rôles, des objectifs ou des styles, améliorant ainsi la capacité de Claude à conserver son caractère dans les scénarios de jeu de rôle, à adhérer aux règles et à personnaliser ses réponses. Ces instructions sont comparables aux instructions personnalisées d’OpenAI, mais elles sont plus étendues en termes de contexte.

Par exemple, un utilisateur pourrait demander à Claude d’adopter le ton d’un analyste technique lorsqu’il résume un rapport financier, afin de s’assurer que le résultat est conforme aux normes professionnelles. Une telle personnalisation par le biais d’invites du système peut augmenter la précision, réduire les hallucinations et améliorer la qualité globale d’une pièce en rendant les interactions plus précises et plus pertinentes en termes de contexte.

Cependant, le plein potentiel de Claude 2.1, avec sa fenêtre contextuelle de 200 000 jetons, est réservé aux utilisateurs de Claude Pro, de sorte que les utilisateurs libres devront s’en tenir à Claude 2 avec 100 000 jetons et une précision classée quelque part entre GPT 3,5 et GPT-4.

Les effets d’entraînement de la sortie de Claude 2.1 devraient influencer la dynamique de l’industrie de l’IA. Alors que les entreprises et les utilisateurs évaluent leurs options en matière d’IA, les capacités améliorées de Claude 2.1 présentent de nouvelles considérations pour ceux qui cherchent à tirer parti de l’IA pour sa précision et son adaptabilité.

Anthropic met à jour Claude avec près de deux fois les capacités de GPT-4 Turbo

Le jeu NFT « Champions Tactics » d’Ubisoft arrive dans le « Mocaverse » d’Animoca

Le PDG de Cruise démissionne sur fond de crise de la sécurité des voitures autonomes

Related Posts

Leave a Comment Cancel Reply