Home » Dalla lettura dei raggi X alla decodifica di rapporti UFO classificati, ChatGPT mostra la propria visione

Dalla lettura dei raggi X alla decodifica di rapporti UFO classificati, ChatGPT mostra la propria visione

by Thomas

Anche se l’intelligenza artificiale è esplosa sulla scena grazie a chatbot a volte inquietantemente intelligenti, le interazioni basate sul testo sono già fuori moda. L’annuncio dell’aggiornamento GPT-4 di OpenAI ha introdotto GPT-Vision (GPT-V), l’ultima meraviglia di AI multimodale. L’annuncio è ora diventato realtà e gli utenti hanno finalmente la possibilità di testare il pieno potenziale delle sue capacità.

Un modello linguistico multimodale (LLM) significa che può interagire non solo con la parola scritta, ma anche attraverso altre modalità. In questo caso, il nuovo GPT-V può comprendere le immagini e lavorare con esse. Inoltre, grazie al nuovo strumento di arte generativa DALL-E 3, ChatGPT può sia ricevere immagini come input che generare immagini come output.

Queste nuove funzionalità hanno fatto sollevare le sopracciglia in tutto lo spazio tecnologico, in quanto gli utenti le hanno messe alla prova. Sono in grado di decodificare i documenti governativi secretati sugli avvistamenti UFO? Sì. “ChatGPT-4V Multimodal decodifica un documento governativo redatto su un avvistamento UFO rilasciato dalla NASA”, si legge in un tweet. “Forse la verità non è là fuori, ma è proprio qui, nel GPT-V. “

Cercare di riempire i vuoti in una stringa di testo è fondamentalmente ciò che fanno i LLM. L’utente ha fatto la cosa migliore quando ha cercato di testare le capacità di GPT-V e gli ha fatto indovinare parti di un testo che aveva censurato. “Accuratezza dell’intento quasi del 100%”, ha riferito l’utente.

Naturalmente, è difficile verificare se le sue ipotesi su ciò che è altrimenti oscurato siano accurate: non possiamo certo chiedere alla CIA quanto sia stato bravo a sbirciare attraverso le linee nere.

Anche più difficile che scoprire informazioni censurate dal governo è cercare di capire la scrittura criptica del vostro medico. Ma GPT-V è in grado di decifrare gli scarabocchi. Con una richiesta cortese, GPT-V è in grado di dare un senso anche alle note del medico più indecifrabili, assicurando che “prendere due compresse” non diventi “cuocere waffle blu”.

Ma attenzione. A volte anche l’IA più avanzata fallisce contro le mani di un medico esperto o artritico, e potrebbe essere necessario un esperto per decifrare quegli enigmi scritti.

E per coloro che non si fidano del proprio medico, ChatGPT può fornire un secondo parere immediato. Il modello è in grado di comprendere le radiografie e di fornire analisi e approfondimenti su casi medici specifici.

Ma perché fermarsi alla scrittura e alla scansione del corpo? GPT-V è diventato l’ultimo guru dell’home fitness, curando piani di allenamento su misura per le attrezzature e gli obiettivi di casa. E se siete curiosi di sapere quante calorie ci sono nel pasto che state per consumare, GPT-V vi copre le spalle. Un utente ha condiviso con gioia: “OK ChatGPT 4.0 con nuove funzioni di visione… riconosce tutto. Anche una foca sulla spiaggia. “

Appassionati di interior design, gioite! L’intelligenza artificiale offre ora suggerimenti di design e può incorporare le preferenze personali. Immaginate uno spazio abitativo che grida “voi”, senza dover pagare i costosi designer. Basta scattare una foto della vostra terribile stanza e chiedere a GPT-V suggerimenti per trasformarla nel paradiso che desiderate.

Problemi con i compiti? Basta fare uno screenshot del compito e GPT-V assume il ruolo di quell’utile compagno di classe che avreste sempre voluto accanto a voi.

E per gli appassionati di finanza, GPT-V non è solo divertimento e giochi. GPT-V è in grado di approfondire l’analisi tecnica. Basta inserire uno screenshot della vostra azione o criptovaluta preferita (o più odiata) e il programma analizzerà il vostro grafico e farà delle proiezioni di conseguenza. Ricordate solo che non si tratta di una consulenza finanziaria e che se finirete poveri, nessuna intelligenza artificiale vi farà diventare ricchi.

L’alba degli LLM multimodali sta ridefinendo le industrie. Con i titani dell’intelligenza artificiale in evoluzione, GPT-V è solo la punta dell’iceberg. Si dice che l’imminente Gemini di Google sia in grado di superare Bard grazie alle sue capacità multimodali. NexT-GPT offre un’alternativa open-source e all’orizzonte si prospettano modelli addestrati a destreggiarsi tra parole, suoni, video e immagini.

Questi progressi non sono solo chiacchiere tecnologiche: hanno implicazioni che potrebbero rimodellare le nostre interazioni quotidiane, le nostre professioni e forse anche la nostra visione del mondo. E mentre OpenAI fa da pioniere con GPT-V, i concorrenti non sono lontani. Potremmo essere sull’orlo di un rinascimento dell’IA?

Beh, se state ancora usando l’IA solo per chattare, potreste già essere in ritardo. L’IA è in grado di leggere e vedere, e ogni giorno aumenta le sue capacità.

GPT-V può anche rovinare il divertimento di un libro “Dov’è Waldo?”. Perché qualcuno dovrebbe volerlo? Questo è il territorio del CaosGPT.

Related Posts

Leave a Comment