Home » OpenAI si butta nella mischia del text-to-video con Sora, sfidando Meta, MidJourney e Pika Labs

OpenAI si butta nella mischia del text-to-video con Sora, sfidando Meta, MidJourney e Pika Labs

by Tim

OpenAI ha presentato oggi Sora, un nuovo modello di intelligenza artificiale in grado di accettare istruzioni basate sul testo e di creare video lunghi e accattivanti. Beh, video lunghi un minuto.

Al momento si tratta di una beta chiusa, disponibile solo per gli sviluppatori invitati, e rappresenta un ingresso un po’ tardivo da parte del leader mondiale dell’intelligenza artificiale. Il text-to-video non è esattamente un territorio inesplorato. Aziende come RunwayML e Pika Labs sono in gioco da tempo e attualmente dominano la scena con modelli in grado di creare immagini straordinarie in pochi secondi.

Ma c’è sempre una fregatura: questi video tendono a essere brevi, e la storia perde di attenzione e coerenza quanto più si allunga.

Con Sora, OpenAI mira a raggiungere la coerenza, generando video altamente dettagliati della durata di un minuto che possano fluire ed evolversi senza soluzione di continuità. Non si tratta di un obiettivo semplice, poiché i modelli di intelligenza artificiale improvvisano ogni fotogramma da zero. Un piccolo difetto in un singolo fotogramma può trasformarsi in una cascata di allucinazioni e immagini irrealistiche.

OpenAI sembra però aver fatto dei passi avanti, con Sora che mostra una grafica fluida e accattivante, finora ineguagliata dagli attuali operatori del settore. Alcuni video di esempio sono stati pubblicati online da OpenAI e alcuni sono stati ripubblicati non ufficialmente su YouTube.

OpenAI si sta confrontando con altre aziende di IA che stanno testando le acque del video generativo. Il popolare generatore di testo-immagine Midjourney ha recentemente annunciato di essere al lavoro su un generatore di testo-video, ma non ha fornito una data di rilascio. Inoltre, Stability AI ha recentemente fatto scalpore con Stable Video Diffusion, la sua offerta open-source in grado di generare video di 25 fotogrammi alla risoluzione di 576×1024.

Anche Meta sta mostrando il suo generatore di video EMU, parte della sua spinta a integrare l’intelligenza artificiale nei social media e nel metaverso.

Sora – che per ora è in versione limitata, con OpenAI che dà accesso ad “artisti visivi, designer e registi” per avere un feedback – si distingue per il modo in cui comprende il linguaggio. Genera immagini vibranti e altamente dettagliate interpretando le sfumature dei messaggi scritti. Avete bisogno di un movimento specifico della telecamera? Diversi personaggi con emozioni realistiche? Nessun problema.

Sora genera persino transizioni senza soluzione di continuità tra diverse inquadrature all’interno dello stesso video, imitando ciò che alcuni strumenti di edizione video fanno già oggi. Ecco un altro video di appassionati pubblicato oggi su YouTube:

Anche se la creatività alimentata dall’intelligenza artificiale ha le sue stranezze. Sora non è ancora un maestro del cinema. In altre parole, può avere problemi con la fisica o con intricate cause-effetti e, sebbene sia già uno dei generatori di video più coerenti, non raggiunge livelli di fedeltà assoluta, per cui è lecito aspettarsi allucinazioni.

Inoltre, provenendo da OpenAI, Sora sarà senza dubbio un modello pesantemente censurato. L’azienda ha sottolineato la sua attenzione ai test di sicurezza e agli strumenti di rilevamento per segnalare i contenuti potenzialmente dannosi e fuorvianti. OpenAI sta lavorando con il suo team rosso per perfezionare il suo modello e spera che la sua strategia di rilascio anticipato porti a una collaborazione nella costruzione di IA sempre più sicure nei prossimi anni.

Non è stata annunciata una data di rilascio immediata per l’implementazione più ampia di Sora.

Related Posts

Leave a Comment