Home » Le bon, le mauvais et le laid de Grok, le nouveau chatbot IA d’Elon Musk

Le bon, le mauvais et le laid de Grok, le nouveau chatbot IA d’Elon Musk

by Patricia

Dans le monde en constante évolution de la technologie, les efforts d’Elon Musk manquent rarement de faire des vagues. Quelques semaines après avoir clairement appelé à cesser de former des LLM plus compétents que le GPT-4, Musk a fait son geste emblématique : faire exactement le contraire de ce qu’il prêchait. Voici donc xAI, la dernière création de Musk, et Grok, son tout nouveau LLM annoncé samedi.

L’entreprise a fait les gros titres non seulement en raison de l’implication de Musk, mais aussi en raison du grand nombre de chercheurs en IA que l’entreprise a réussi à recruter parmi les principales startups et les géants de la technologie. xAI a été promue avec l’attrait d’une IA conçue pour « comprendre le monde », mais est restée secrète sur le « comment » et le « quoi » de ses activités… du moins jusqu’à la semaine dernière.

S’agit-il d’une nouvelle manœuvre classique de Musk pour remettre en cause le statu quo, ou simplement d’un chatbot surestimé surfant sur l’énorme vague de popularité et de battage médiatique qui entoure ses prédécesseurs…

Le bon

Un flux constant de connaissances en temps réel

Grok a accès à l’ensemble du contenu de Twitter, ce qui pourrait changer la donne. Comme l’a souligné xAI, Grok disposera d’une « connaissance du monde en temps réel », en traitant ce que les chercheurs en IA appellent l’apprentissage par renforcement à partir du feedback humain (RLHF), les nouvelles et les divers commentaires sur les événements actuels.

En apprenant les événements sous différents angles et en intégrant les notes Twitter (qui sont essentiellement des annotations), Grok bénéficiera d’une vision du monde à multiples facettes.

Selon des études récentes, les gens ont déjà adapté leur comportement pour rechercher des informations sur les médias sociaux avant de se tourner vers les médias traditionnels. L’intégration de Grok avec Twitter pourrait encore accélérer ce processus en fournissant aux utilisateurs des commentaires instantanés, un contexte et – si cela est bien fait – une vérification des faits sur place. La fonction de connaissance en temps réel, comme l’a souligné xAI, garantit que Grok reste à l’écoute du monde, ce qui lui permet de fournir des réponses opportunes et pertinentes.

Fun Mode : Le rêve d’Elon devient réalité

La vision d’Elon Musk d’une IA qui aime s’amuser semble avoir pris vie avec le « Fun Mode » de Grok. Cette fonction permet au LLM de faire des blagues, de donner des réponses humoristiques mais factuellement exactes et d’offrir aux utilisateurs une expérience de conversation fantaisiste et décontractée.

L’un des défis posés par les LLM existants, tels que ChatGPT, est que certains utilisateurs estiment qu’ils sont trop aseptisés pour garantir le politiquement correct, ce qui risque de rendre les interactions moins organiques et spontanées. En outre, certains LLM localisés ne sont pas adaptés aux interactions à long terme. Grok, avec son mode ludique, promet de combler cette lacune et peut servir à tuer le temps pour ceux qui cherchent à se détendre.

Ce concept n’est pas entièrement nouveau, puisque Poe, de Quora, offre un service similaire avec ses chatbots sophistiqués, dont chacun a une personnalité unique. Mais l’intégration de ce service dans un LLM avec les capacités de Grok porte l’expérience à un niveau supérieur.

Accès à Internet pour les autochtones

L’une des autres caractéristiques de Grok est sa capacité à accéder à l’internet sans avoir besoin d’un plug-in ou d’un autre module.

Bien que l’étendue exacte des capacités de navigation n’ait pas encore été précisée, l’idée est séduisante. Imaginez un LLM capable d’améliorer l’exactitude des faits parce qu’il peut comparer des données en temps réel. Combiné à l’accès au contenu de Twitter, Grok pourrait révolutionner la manière dont les utilisateurs interagissent avec l’IA, car ils savent que les informations qu’ils reçoivent ne sont pas seulement basées sur des données d’entraînement préexistantes, mais qu’elles sont constamment mises à jour et vérifiées.

Multitâche

Grok est apparemment capable de fonctionner en mode multitâche, ce qui permet aux utilisateurs d’avoir plusieurs conversations simultanément. Les utilisateurs peuvent explorer différents sujets, attendre une réponse à un fil de discussion et passer à un autre.

Le chatbot propose également des conversations à plusieurs niveaux, permettant aux utilisateurs d’approfondir des sujets spécifiques sans interrompre la discussion principale, et fournit un guide visuel pour toutes les conversations à plusieurs niveaux, permettant aux utilisateurs de naviguer facilement entre les sujets.

Grok propose également un éditeur markdown intégré, qui permet aux utilisateurs de télécharger, d’éditer et de formater les réponses Grok en vue d’une utilisation ultérieure. Cet outil, combiné à la ramification, permet aux utilisateurs de travailler sur des branches de conversation spécifiques et de se reconnecter de manière transparente.

Censure minimale : une IA en roue libre

La vision d’Elon Musk pour Grok était claire : une IA qui n’hésite pas à exprimer son opinion numérique.

Bien que tous les principaux chatbots d’IA aient mis en place des garde-fous pour éviter tout risque de préjudice ou de désinformation, ils peuvent parfois donner l’impression d’être restrictifs. Les utilisateurs ont remarqué que les modèles tels que ChatGPT, Llama et Claude sont parfois prudents dans leurs réponses, faisant preuve de prudence pour éviter les insultes potentielles. Cependant, cela peut conduire à ce que des réponses bénignes ou réellement recherchées soient filtrées.

Grok dispose d’une plus grande liberté dans ses réponses et peut donc potentiellement offrir une expérience de conversation plus authentique et plus libre. Comme le souligne xAI, la conception de Grok lui permet de répondre à des questions difficiles que d’autres systèmes d’IA pourraient éviter.

Il est clair que cette IA offre un mélange unique d’informations en temps réel, d’humour, de précision et de liberté. Mais comme pour toute innovation, il y a des défis et des pièges potentiels à prendre en compte.

Le mauvais

Développement réduit et formation limitée

Dès le début, le développement rapide de Grok a fait sourciller. Comme le dit xAI, « Grok est encore un produit bêta très précoce – le meilleur que nous ayons pu faire avec deux mois de formation ». Dans le monde des LLM, deux mois et 33 milliards de paramètres semblent être une goutte d’eau dans l’océan.

OpenAI a fait preuve de transparence quant à son processus de développement : « Nous avons passé six mois à aligner GPT-4 de manière itérative. » La différence de calendrier de développement suggère que le développement de Grok a été précipité pour profiter de la vague d’engouement pour l’IA.

De plus, x.AI reste discret sur la quantité de matériel utilisé pendant la formation de Grok, ce qui laisse place à la spéculation.

Tout sur les paramètres

Pour les non-initiés, les paramètres des LLM représentent la quantité d’informations ou de connaissances que le modèle peut contenir. Ils indiquent la capacité cérébrale effective de l’IA et déterminent sa capacité à traiter et à générer des informations. Grok, avec ses 33 milliards de paramètres, peut sembler impressionnant à première vue.

Toutefois, dans le paysage concurrentiel du LLM, il n’est qu’un acteur parmi d’autres. En effet, le nombre de paramètres n’est peut-être pas suffisant pour répondre aux besoins complexes des entreprises et pour produire les résultats de haute qualité que des titans tels que ChatGPT, Claude et Bard ont définis comme l’étalon-or.

C’est en partie à cause de ce faible nombre de paramètres que Grok ne parvient pas à battre d’autres modèles grand public dans des benchmarks clés tels que HumanEval ou MMLU:

Source : x.AI

Source : x.AI


En plus du nombre de paramètres, il y a aussi la question du traitement du contexte, c’est-à-dire la quantité d’informations qu’un chatbot d’IA peut comprendre en une seule entrée. Grok n’est pas particulièrement impressionnant dans ce domaine. Selon xAI, Grok comprend 8 192 tokens de contexte, mais GPT-4 peut en traiter jusqu’à 32 000 et Claude va encore plus loin en traitant jusqu’à 100 000 tokens. Le nouveau GPT-4 Turbo d’OpenAI atteint une fenêtre contextuelle de 128 000 tokens.

Le prix de l’innovation

Le coût est un facteur crucial dans l’évaluation de la valeur d’un produit, et Grok ne fait pas exception à la règle. Le chatbot sera disponible pour les utilisateurs prêts à payer 16 dollars par mois pour avoir le privilège d’interagir avec lui.

Avec des offres gratuites comme Claude 2 et ChatGPT équipé de GPT-3.5 Turbo, Grok pourrait être difficile à vendre – surtout si l’on considère que ces modèles gratuits sont vantés pour leur précision et qu’ils surpassent déjà Grok dans certains benchmarks.

De plus, même le LLM le plus puissant du marché, GPT-4, promet d’être meilleur que Grok, avec l’avantage supplémentaire d’être largement accessible, multimodal et puissant.

L’introduction de Grok serait-elle en grande partie une décision stratégique visant à augmenter les abonnements à Twitter Blue afin d’accroître les revenus de Twitter ?

Ces préoccupations mettent en évidence les difficultés qu’éprouve Grok à s’imposer comme un acteur majeur dans le domaine du LLM. Et les inconvénients ne s’arrêtent pas au prix

La laideur

L’omission de la fiction

Baser un LLM sur un personnage fictif d’un roman populaire est sans aucun doute un choix créatif. Si le charme d’un personnage fictif peut être séduisant, il comporte des risques inhérents dans un monde qui dépend de plus en plus d’informations précises. Les utilisateurs qui s’adressent à l’IA pour des questions ou des conseils sérieux peuvent se trouver en porte-à-faux avec un système conçu pour imiter un personnage de bande dessinée.

De plus, comme la frontière entre la fiction et la réalité s’estompe, les utilisateurs risquent d’interpréter à tort des réponses ludiques ou satiriques comme des informations factuelles. À l’ère numérique, où chaque information est disséquée et partagée, les conséquences de telles méprises peuvent être considérables. Surtout lorsqu’il s’agit de plusieurs langues.

Si l’humour et l’esprit ont leur place, il est essentiel de trouver un équilibre, en particulier lorsque les utilisateurs sont à la recherche d’informations critiques. Privilégier l’humour à l’exactitude peut être divertissant, mais cela porte atteinte à l’essence même de ce qu’un LLM devrait fournir : des informations fiables.

Surpromis et sous-délivré

Les grandes promesses d’Elon Musk sur Grok ont ouvert la voie à des attentes démesurées. En creusant un peu, nous constatons que le battage médiatique et la réalité ne concordent pas. Le fait que les méthodes de formation LLM traditionnelles soient limitées par leurs données de formation met en évidence une limitation critique : elles ne peuvent pas vraiment s’aventurer dans la « super-AI ».

La formation de Grok, avec ses 33 milliards de paramètres et ses quelques mois de développement, semble dérisoire par rapport aux autres géants du LLM. Si l’idée d’une personnalité ludique et fictive semble séduisante, il est peut-être un peu exagéré de s’attendre à ce qu’elle produise des résultats révolutionnaires avec des méthodes d’apprentissage standard.

La communauté de l’IA n’est pas étrangère à l’exagération, mais compte tenu des progrès rapides réalisés dans ce domaine, il est essentiel pour les utilisateurs de ne pas tomber dans le piège de l’exagération. Atteindre le statut de « super IA » est un défi énorme et Grok, avec sa configuration et sa formation actuelles, a peu de chances d’y parvenir.

En effet, pour prouver la force de Grok, Elon Musk a comparé son chatbot conversationnel à un petit LLM formé au codage. Autant dire que le combat n’a pas été équitable.

La menace de la désinformation

Les LVM sont puissants, mais pas infaillibles. Sans normes rigoureuses, distinguer la réalité de la fiction devient une tâche herculéenne. L’histoire récente offre des exemples édifiants, comme les chatbots formés à partir des données de 4chan ou même Tay, un ancien chatbot de Microsoft qui a été autorisé à interagir sur Twitter. Ces robots ne se sont pas contentés de proférer des propos haineux, ils ont également réussi à se faire passer pour une personne réelle, trompant ainsi un large public en ligne.

Ce flirt avec la désinformation n’est pas isolé. L’image de Twitter ayant pris un coup depuis son acquisition par Elon, on peut s’interroger sur la capacité de Grok à délivrer des informations exactes de manière cohérente. Les LLM sont parfois victimes d’hallucinations et si ces distorsions sont prises pour des vérités, les conséquences pourraient être alarmantes.

Le risque de désinformation est une bombe à retardement. Alors que les utilisateurs s’appuient de plus en plus sur l’IA pour obtenir des informations, la désinformation peut conduire à une prise de décision erronée. Si Grok veut être un allié fiable, il doit procéder avec prudence et veiller à ce que son attitude enjouée n’obscurcisse pas la vérité.

Passons-nous à côté d’opportunités multimodales ?

Dans le monde émergent de l’IA, l’approche textuelle de Grok semble être une relique du passé. Bien que les utilisateurs soient censés payer pour les services de Grok, ils peuvent à juste titre se demander pourquoi, en particulier lorsque d’autres LLM offrent des expériences multimodales plus riches.

GPT-4-v, par exemple, a déjà fait des progrès en matière de multimodalité, avec la possibilité d’entendre, de voir et de parler. Le nouveau Gemini de Google promet un ensemble de fonctionnalités similaires. Dans ce contexte, l’offre de Grok semble terne, ce qui soulève d’autres questions quant à sa proposition de valeur.

Il s’agit d’un marché concurrentiel et les utilisateurs sont de plus en plus exigeants. Si Grok veut se faire une place, il doit vraiment offrir quelque chose d’exceptionnel. Dans l’état actuel des choses, avec des concurrents qui proposent des fonctions améliorées et une meilleure précision – souvent gratuitement – Grok a du pain sur la planche.

Conclusion

Le lancement de Grok a suscité de l’enthousiasme, mais aussi beaucoup de scepticisme. L’approche du produit minimum viable (MVP) permet une itération et une amélioration rapides basées sur les commentaires des utilisateurs. Mais la concurrence des géants de l’intelligence artificielle, qui disposent de ressources bien plus importantes, n’est pas une mince affaire.

Pour que Grok réussisse, il lui faut des capacités nouvelles et utiles. La seule valeur ludique ne suffira pas sur un marché encombré. Les humains dotés d’une IA ne se laisseront pas distraire par des mèmes de chiens mignons.

En fin de compte, le sort de Grok dépend de l’équilibre entre l’innovation et la facilité d’utilisation. Si un scepticisme de bon aloi est de mise, il est peut-être prématuré de faire une croix sur Grok. Grok peut encore faire œuvre de pionnier ou devenir une note de bas de page dans l’évolution de l’IA. Quoi qu’il en soit, ses origines non conventionnelles garantissent que Grok sera un chapitre intriguant de l’histoire de l’intelligence artificielle.

Related Posts

Leave a Comment