OpenAI se lanza a la batalla del texto a vídeo con Sora, desafiando a Meta, MidJourney y Pika Labs

by Thomas marzo 25, 2024

written by Thomas marzo 25, 2024

OpenAI ha presentado hoy Sora, un nuevo modelo de inteligencia artificial capaz de tomar instrucciones basadas en texto y crear vídeos largos y cautivadores. Bueno, vídeos de un minuto de duración.

De momento se trata de una beta cerrada que sólo está disponible para desarrolladores invitados, y representa una entrada algo tardía por parte del líder mundial en IA. La conversión de texto en vídeo no es precisamente un terreno desconocido. Empresas como RunwayML y Pika Labs llevan tiempo en el mercado y actualmente dominan la escena con modelos capaces de crear imágenes asombrosas en cuestión de segundos.

Pero siempre hay una pega: estos vídeos tienden a ser cortos, y la historia pierde enfoque y coherencia cuanto más se alargan.

Con Sora, OpenAI pretende lograr la coherencia, generando vídeos muy detallados de un minuto de duración que puedan fluir y evolucionar a la perfección. No es un objetivo sencillo, ya que los modelos de IA improvisan cada fotograma desde cero. Un pequeño fallo en un solo fotograma puede convertirse en una cascada de alucinaciones e imágenes irreales.

Sin embargo, OpenAI parece haber avanzado: Sora muestra unos efectos visuales suaves y cautivadores que no tienen rival en el mercado. OpenAI ha colgado en Internet vídeos de ejemplo, y algunos se han vuelto a publicar extraoficialmente en YouTube.
OpenAI se enfrenta a otras empresas de IA que también están tanteando el terreno del vídeo generativo. El popular generador de texto a imagen Midjourney anunció recientemente que está trabajando en un generador de texto a vídeo, pero no ofreció una fecha de lanzamiento. Stability AI también ha dado que hablar con Stable Video Diffusion, su propuesta de código abierto capaz de generar vídeos de 25 fotogramas a una resolución de 576×1024.

Meta también presenta su generador de vídeo EMU, que forma parte de su campaña para integrar la IA en las redes sociales y el metaverso.

Sora, que por ahora se encuentra en fase de lanzamiento limitado y a la que OpenAI da acceso a «artistas visuales, diseñadores y cineastas» para que den su opinión, se distingue por su forma de entender el lenguaje. Genera imágenes vibrantes y muy detalladas a la vez que interpreta los matices de las instrucciones escritas. ¿Necesitas un movimiento de cámara específico? ¿Múltiples personajes con emociones realistas? No hay problema.

Sora genera incluso transiciones fluidas entre distintas tomas de un mismo vídeo, imitando lo que ya hacen algunas herramientas de edición de vídeo. He aquí otro vídeo de entusiastas publicado hoy en YouTube:

Aún así, la creatividad impulsada por la IA tiene sus peculiaridades. Sora aún no es un maestro del cine. En otras palabras, puede tener problemas con la física o con las intrincadas causas y efectos, y aunque ya es uno de los generadores de vídeo más consistentes, no alcanza niveles de fidelidad absoluta, por lo que cabe esperar alucinaciones.

Además, viniendo de OpenAI, Sora será sin duda un modelo muy censurado. La empresa hizo hincapié en su enfoque en las pruebas de seguridad y las herramientas de detección para señalar el contenido potencialmente dañino y engañoso. OpenAI está trabajando con su equipo rojo para pulir su modelo y espera que su estrategia de lanzamiento temprano conduzca a la colaboración en la construcción de una IA cada vez más segura en los próximos años.

No se ha anunciado una fecha de lanzamiento inmediata para la aplicación más amplia de Sora.

OpenAI se lanza a la batalla del texto a vídeo con Sora, desafiando a Meta, MidJourney y Pika Labs

MicroStrategy podría entrar pronto en el S&P 500. ¿Qué significa eso para Bitcoin? Qué significa para el Bitcoin

Microsoft llevará a PlayStation y Nintendo juegos que antes eran exclusivos de Xbox

Related Posts

Leave a Comment Cancel Reply