Home » De la lecture des radiographies au décodage des rapports d’ovnis classifiés, ChatGPT montre sa vision.

De la lecture des radiographies au décodage des rapports d’ovnis classifiés, ChatGPT montre sa vision.

by v

Bien que l’IA ait explosé sur la scène grâce à des chatbots parfois étrangement intelligents, les interactions basées sur le texte sont déjà démodées. L’annonce de la mise à jour GPT-4 d’OpenAI a introduit GPT-Vision (GPT-V), la dernière merveille d’IA multimodale. L’annonce est maintenant devenue réalité, les utilisateurs ayant enfin la possibilité de tester le plein potentiel de ses capacités.

Un grand modèle de langage multimodal (LLM) signifie qu’il peut interagir non seulement avec le mot écrit, mais aussi avec d’autres modes. Dans ce cas, le nouveau GPT-V peut comprendre les images et travailler avec elles. De plus, grâce au nouvel outil d’art génératif DALL-E 3, ChatGPT peut à la fois prendre des images en entrée et en générer en sortie.

Ces nouvelles capacités ont fait sourciller l’ensemble de l’espace technologique, car les utilisateurs les ont mises à l’épreuve. Peut-il décoder des documents gouvernementaux expurgés sur les observations d’ovnis ? Oui. « ChatGPT-4V Multimodal décode un document gouvernemental expurgé sur une observation d’OVNI publié par la NASA », s’enthousiasme un tweet. « Peut-être que la vérité n’est pas à l’extérieur, elle est juste ici dans GPT-V. « 

Tenter de combler les lacunes d’une chaîne de texte, c’est en gros ce que font les LLM. L’utilisateur a fait ce qu’il y avait de mieux pour tester les capacités de GPT-V et lui a fait deviner des parties d’un texte qu’il avait censuré. « La précision de l’intention est proche de 100 % », a-t-il déclaré.

Bien sûr, il est difficile de vérifier si la supposition de ce qui est autrement obscurci est exacte – ce n’est pas comme si nous pouvions demander à la CIA comment elle s’est débrouillée en regardant à travers les lignes noires.

Il est encore plus difficile de découvrir des informations censurées par le gouvernement que d’essayer de comprendre l’écriture cryptique de votre médecin. Mais le GPT-V peut déchiffrer ce gribouillis. Avec une invite polie, GPT-V peut donner un sens aux notes les plus indéchiffrables du médecin, en s’assurant que « prendre deux comprimés » ne devienne pas « faire des gaufres bleues ».

Mais attention. Parfois, même l’IA la plus avancée échoue entre les mains d’un médecin expérimenté – ou arthritique – et il faudra peut-être un expert pour déchiffrer ces énigmes écrites.

Et pour ceux qui ne font pas confiance à leur médecin, ChatGPT peut fournir un deuxième avis instantané. Le modèle peut comprendre les radiographies et fournir une analyse et des informations sur des cas médicaux spécifiques.

Mais pourquoi s’arrêter à l’écriture et aux scanners corporels ? GPT-V est devenu le dernier gourou du fitness à domicile, proposant des programmes d’entraînement adaptés à votre équipement et à vos objectifs. Et si vous êtes curieux de savoir combien de calories contient le repas que vous vous apprêtez à manger, GPT-V est là pour vous aider. Un utilisateur a déclaré avec joie : « OK ChatGPT 4.0 avec de nouvelles fonctions de vision… reconnaît tout, même un phoque sur la plage. Même un phoque sur la plage. « 

Les amateurs de design d’intérieur se réjouissent ! L’IA propose désormais des suggestions d’aménagement et peut intégrer des préférences personnelles. Imaginez un espace de vie qui vous ressemble, sans les frais élevés d’un designer. Il vous suffit de prendre une photo de votre horrible pièce et de demander à GPT-V de vous faire des suggestions pour en faire le paradis que vous souhaitez.

Des devoirs en pagaille ? Il vous suffit de faire une capture d’écran du devoir, et GPT-V prend le rôle de ce camarade de classe serviable que vous avez toujours souhaité avoir à vos côtés.

Et pour les plus férus de finance d’entre nous, GPT-V n’est pas qu’une question d’amusement et de jeux. GPT-V peut plonger au cœur de l’analyse technique. Il suffit de saisir une capture d’écran de votre action ou crypto préférée (ou la plus détestée), et il analysera votre graphique et fera des projections en conséquence. Rappelez-vous simplement qu’il ne s’agit pas de conseils financiers – et que si vous finissez pauvre, aucune IA ne vous rendra riche.

L’avènement des LLM multimodaux redéfinit les industries. Avec l’évolution des titans de l’IA, GPT-V n’est que la partie émergée de l’iceberg. Le futur Gemini de Google devrait, selon les rumeurs, surpasser Bard grâce à ses prouesses multimodales. NexT-GPT offre une alternative open-source, et l’horizon promet des modèles entraînés à jongler avec les mots, les sons, les vidéos et les images.

De telles avancées ne sont pas que du blabla technique : elles ont des implications qui pourraient remodeler nos interactions quotidiennes, nos professions et peut-être même notre vision du monde. Et tandis qu’OpenAI fait œuvre de pionnier avec GPT-V, ses concurrents ne sont pas loin derrière. Serions-nous à l’aube d’une renaissance de l’IA ?

Si vous utilisez encore l’IA uniquement pour discuter, vous êtes peut-être déjà à la traîne. L’IA peut lire et voir, et ses capacités augmentent chaque jour.

GPT-V peut également gâcher le plaisir d’un livre « Where’s Waldo ». Pourquoi quelqu’un voudrait-il cela ? C’est le territoire du ChaosGPT.

Related Posts

Leave a Comment