Bien que l’IA ait explosé sur la scène grâce à des chatbots parfois étrangement intelligents, les interactions basées sur le texte sont déjà démodées. L’annonce de la mise à jour GPT-4 d’OpenAI a introduit GPT-Vision (GPT-V), la dernière merveille d’IA multimodale. L’annonce est maintenant devenue réalité, les utilisateurs ayant enfin la possibilité de tester le plein potentiel de ses capacités.
Un grand modèle de langage multimodal (LLM) signifie qu’il peut interagir non seulement avec le mot écrit, mais aussi avec d’autres modes. Dans ce cas, le nouveau GPT-V peut comprendre les images et travailler avec elles. De plus, grâce au nouvel outil d’art génératif DALL-E 3, ChatGPT peut à la fois prendre des images en entrée et en générer en sortie.
Ces nouvelles capacités ont fait sourciller l’ensemble de l’espace technologique, car les utilisateurs les ont mises à l’épreuve. Peut-il décoder des documents gouvernementaux expurgés sur les observations d’ovnis ? Oui. « ChatGPT-4V Multimodal décode un document gouvernemental expurgé sur une observation d’OVNI publié par la NASA », s’enthousiasme un tweet. « Peut-être que la vérité n’est pas à l’extérieur, elle est juste ici dans GPT-V. «
ChatGPT-4V Le multimodal décode un document gouvernemental expurgé sur une observation d’OVNI publié par la NASA.
J’ai testé cette méthode sur des centaines de documents expurgés et je peux affirmer que nous vivons dans un monde nouveau. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) October 6, 2023
Tenter de combler les lacunes d’une chaîne de texte, c’est en gros ce que font les LLM. L’utilisateur a fait ce qu’il y avait de mieux pour tester les capacités de GPT-V et lui a fait deviner des parties d’un texte qu’il avait censuré. « La précision de l’intention est proche de 100 % », a-t-il déclaré.
Bien sûr, il est difficile de vérifier si la supposition de ce qui est autrement obscurci est exacte – ce n’est pas comme si nous pouvions demander à la CIA comment elle s’est débrouillée en regardant à travers les lignes noires.
Il est encore plus difficile de découvrir des informations censurées par le gouvernement que d’essayer de comprendre l’écriture cryptique de votre médecin. Mais le GPT-V peut déchiffrer ce gribouillis. Avec une invite polie, GPT-V peut donner un sens aux notes les plus indéchiffrables du médecin, en s’assurant que « prendre deux comprimés » ne devienne pas « faire des gaufres bleues ».
ChatGPT-4V Multimodal.
Invitation : « Veuillez décoder ce document. Réfléchissons étape par étape. Il est essentiel d’être précis. Merci » pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) Le 6 octobre 2023
Mais attention. Parfois, même l’IA la plus avancée échoue entre les mains d’un médecin expérimenté – ou arthritique – et il faudra peut-être un expert pour déchiffrer ces énigmes écrites.
Et pour ceux qui ne font pas confiance à leur médecin, ChatGPT peut fournir un deuxième avis instantané. Le modèle peut comprendre les radiographies et fournir une analyse et des informations sur des cas médicaux spécifiques.
Cas d’utilisation sous-estimé de ChatGPT Vision.
Il faut 13 ans de formation pour devenir radiologue.
Maintenant, au lieu de rédiger un rapport à partir de zéro, ils ont probablement juste besoin de revoir le diagnostic de l’IA. pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) Le 2 octobre 2023
Mais pourquoi s’arrêter à l’écriture et aux scanners corporels ? GPT-V est devenu le dernier gourou du fitness à domicile, proposant des programmes d’entraînement adaptés à votre équipement et à vos objectifs. Et si vous êtes curieux de savoir combien de calories contient le repas que vous vous apprêtez à manger, GPT-V est là pour vous aider. Un utilisateur a déclaré avec joie : « OK ChatGPT 4.0 avec de nouvelles fonctions de vision… reconnaît tout, même un phoque sur la plage. Même un phoque sur la plage. «
OK ChatGPT 4.0 avec de nouvelles fonctions de vision est assez incroyable.
Ici, je lui demande combien de calories contiennent le taco au poisson que je viens de manger.
C’est incroyable de voir comment il reconnaît tout. Même un phoque sur la plage. pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) October 5, 2023
Les amateurs de design d’intérieur se réjouissent ! L’IA propose désormais des suggestions d’aménagement et peut intégrer des préférences personnelles. Imaginez un espace de vie qui vous ressemble, sans les frais élevés d’un designer. Il vous suffit de prendre une photo de votre horrible pièce et de demander à GPT-V de vous faire des suggestions pour en faire le paradis que vous souhaitez.
Des devoirs en pagaille ? Il vous suffit de faire une capture d’écran du devoir, et GPT-V prend le rôle de ce camarade de classe serviable que vous avez toujours souhaité avoir à vos côtés.
Les enfants ne feront plus jamais de devoirs. pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) Le 27 septembre 2023
ChatGPT décompose ce diagramme d’une cellule humaine pour un élève de 3ème.
C’est l’avenir de l’éducation. pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) Le 28 septembre 2023
Et pour les plus férus de finance d’entre nous, GPT-V n’est pas qu’une question d’amusement et de jeux. GPT-V peut plonger au cœur de l’analyse technique. Il suffit de saisir une capture d’écran de votre action ou crypto préférée (ou la plus détestée), et il analysera votre graphique et fera des projections en conséquence. Rappelez-vous simplement qu’il ne s’agit pas de conseils financiers – et que si vous finissez pauvre, aucune IA ne vous rendra riche.
C’EST TELLEMENT FINI POUR LES TA-OOOOORS
J’ai donné à GPT-V une image de mon graphique pour $UBER avec un tas d’indicateurs et il a donné de bonnes entrées longues. Je vais le tester en direct.
Le fil de discussion ci-dessous ! pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) October 11, 2023
L’avènement des LLM multimodaux redéfinit les industries. Avec l’évolution des titans de l’IA, GPT-V n’est que la partie émergée de l’iceberg. Le futur Gemini de Google devrait, selon les rumeurs, surpasser Bard grâce à ses prouesses multimodales. NexT-GPT offre une alternative open-source, et l’horizon promet des modèles entraînés à jongler avec les mots, les sons, les vidéos et les images.
De telles avancées ne sont pas que du blabla technique : elles ont des implications qui pourraient remodeler nos interactions quotidiennes, nos professions et peut-être même notre vision du monde. Et tandis qu’OpenAI fait œuvre de pionnier avec GPT-V, ses concurrents ne sont pas loin derrière. Serions-nous à l’aube d’une renaissance de l’IA ?
Si vous utilisez encore l’IA uniquement pour discuter, vous êtes peut-être déjà à la traîne. L’IA peut lire et voir, et ses capacités augmentent chaque jour.
GPT-V peut également gâcher le plaisir d’un livre « Where’s Waldo ». Pourquoi quelqu’un voudrait-il cela ? C’est le territoire du ChaosGPT.
« Je l’ai trouvé ! » pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) Le 29 septembre 2023