Anche se l’intelligenza artificiale è esplosa sulla scena grazie a chatbot a volte inquietantemente intelligenti, le interazioni basate sul testo sono già fuori moda. L’annuncio dell’aggiornamento GPT-4 di OpenAI ha introdotto GPT-Vision (GPT-V), l’ultima meraviglia di AI multimodale. L’annuncio è ora diventato realtà e gli utenti hanno finalmente la possibilità di testare il pieno potenziale delle sue capacità.
Un modello linguistico multimodale (LLM) significa che può interagire non solo con la parola scritta, ma anche attraverso altre modalità. In questo caso, il nuovo GPT-V può comprendere le immagini e lavorare con esse. Inoltre, grazie al nuovo strumento di arte generativa DALL-E 3, ChatGPT può sia ricevere immagini come input che generare immagini come output.
Queste nuove funzionalità hanno fatto sollevare le sopracciglia in tutto lo spazio tecnologico, in quanto gli utenti le hanno messe alla prova. Sono in grado di decodificare i documenti governativi secretati sugli avvistamenti UFO? Sì. “ChatGPT-4V Multimodal decodifica un documento governativo redatto su un avvistamento UFO rilasciato dalla NASA”, si legge in un tweet. “Forse la verità non è là fuori, ma è proprio qui, nel GPT-V. “
ChatGPT-4V Multimodal decodifica un documento governativo redatto su un avvistamento UFO rilasciato dalla NASA.
L’ho testato su 100 documenti redatti e posso dire che siamo in un nuovo mondo. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) 6 ottobre 2023
Cercare di riempire i vuoti in una stringa di testo è fondamentalmente ciò che fanno i LLM. L’utente ha fatto la cosa migliore quando ha cercato di testare le capacità di GPT-V e gli ha fatto indovinare parti di un testo che aveva censurato. “Accuratezza dell’intento quasi del 100%”, ha riferito l’utente.
Naturalmente, è difficile verificare se le sue ipotesi su ciò che è altrimenti oscurato siano accurate: non possiamo certo chiedere alla CIA quanto sia stato bravo a sbirciare attraverso le linee nere.
Anche più difficile che scoprire informazioni censurate dal governo è cercare di capire la scrittura criptica del vostro medico. Ma GPT-V è in grado di decifrare gli scarabocchi. Con una richiesta cortese, GPT-V è in grado di dare un senso anche alle note del medico più indecifrabili, assicurando che “prendere due compresse” non diventi “cuocere waffle blu”.
ChatGPT-4V Multimodale.
Prompt: “Per favore, decodifica questo documento. Pensiamo passo dopo passo. È fondamentale essere precisi. Grazie”. pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) 6 ottobre 2023
Ma attenzione. A volte anche l’IA più avanzata fallisce contro le mani di un medico esperto o artritico, e potrebbe essere necessario un esperto per decifrare quegli enigmi scritti.
E per coloro che non si fidano del proprio medico, ChatGPT può fornire un secondo parere immediato. Il modello è in grado di comprendere le radiografie e di fornire analisi e approfondimenti su casi medici specifici.
Caso d’uso sottovalutato di ChatGPT Vision.
Per diventare radiologo occorrono 13 anni di formazione.
Ora, invece di redigere un referto da zero, probabilmente devono solo rivedere la diagnosi dell’AI. pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) 2 ottobre 2023
Ma perché fermarsi alla scrittura e alla scansione del corpo? GPT-V è diventato l’ultimo guru dell’home fitness, curando piani di allenamento su misura per le attrezzature e gli obiettivi di casa. E se siete curiosi di sapere quante calorie ci sono nel pasto che state per consumare, GPT-V vi copre le spalle. Un utente ha condiviso con gioia: “OK ChatGPT 4.0 con nuove funzioni di visione… riconosce tutto. Anche una foca sulla spiaggia. “
OK ChatGPT 4.0 con le nuove funzioni di visione è davvero incredibile.
Qui gli chiedo quante calorie ci sono nel taco di pesce che ho appena mangiato.
È incredibile vedere come riconosce tutto. Anche una foca sulla spiaggia. pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) 5 ottobre 2023
Appassionati di interior design, gioite! L’intelligenza artificiale offre ora suggerimenti di design e può incorporare le preferenze personali. Immaginate uno spazio abitativo che grida “voi”, senza dover pagare i costosi designer. Basta scattare una foto della vostra terribile stanza e chiedere a GPT-V suggerimenti per trasformarla nel paradiso che desiderate.
Problemi con i compiti? Basta fare uno screenshot del compito e GPT-V assume il ruolo di quell’utile compagno di classe che avreste sempre voluto accanto a voi.
I bambini non faranno mai più i compiti a casa. pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) 27 settembre 2023
ChatGPT spiega il diagramma di una cellula umana a un ragazzo del nono anno.
Questo è il futuro dell’istruzione. pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) 28 settembre 2023
E per gli appassionati di finanza, GPT-V non è solo divertimento e giochi. GPT-V è in grado di approfondire l’analisi tecnica. Basta inserire uno screenshot della vostra azione o criptovaluta preferita (o più odiata) e il programma analizzerà il vostro grafico e farà delle proiezioni di conseguenza. Ricordate solo che non si tratta di una consulenza finanziaria e che se finirete poveri, nessuna intelligenza artificiale vi farà diventare ricchi.
È COSÌ FINITA PER I TA-OOOOORI
Ho fornito a GPT-V un’immagine del mio grafico per $UBER con una serie di indicatori e ha fornito buone entrate long. Lo testerò dal vivo.
Thread qui sotto! pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) October 11, 2023
L’alba degli LLM multimodali sta ridefinendo le industrie. Con i titani dell’intelligenza artificiale in evoluzione, GPT-V è solo la punta dell’iceberg. Si dice che l’imminente Gemini di Google sia in grado di superare Bard grazie alle sue capacità multimodali. NexT-GPT offre un’alternativa open-source e all’orizzonte si prospettano modelli addestrati a destreggiarsi tra parole, suoni, video e immagini.
Questi progressi non sono solo chiacchiere tecnologiche: hanno implicazioni che potrebbero rimodellare le nostre interazioni quotidiane, le nostre professioni e forse anche la nostra visione del mondo. E mentre OpenAI fa da pioniere con GPT-V, i concorrenti non sono lontani. Potremmo essere sull’orlo di un rinascimento dell’IA?
Beh, se state ancora usando l’IA solo per chattare, potreste già essere in ritardo. L’IA è in grado di leggere e vedere, e ogni giorno aumenta le sue capacità.
GPT-V può anche rovinare il divertimento di un libro “Dov’è Waldo?”. Perché qualcuno dovrebbe volerlo? Questo è il territorio del CaosGPT.
“L’ho trovato!” pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) 29 settembre 2023