El gigante tecnológico chino Alibaba muestra una IA capaz de "animar a cualquiera".

Hemos avanzado mucho desde Adobe Flash y las tarjetas electrónicas animadas de JibJab.

Dos décadas después, las personas con un ordenador y un poco de tiempo libre pueden crear animaciones de alta calidad (tanto de personas reales como de ilustraciones) con unos pocos clics y cero conocimientos de edición digital.

Ese es al menos el planteamiento de «Animate Anyone», un modelo de IA presentado por el equipo de investigación en IA de Alibaba, multinacional tecnológica china especializada en comercio electrónico y tecnología minorista. Un vídeo de su tecnología en funcionamiento -que afirma ser capaz de animar cualquier foto con una consistencia y un control extraordinarios- ha cautivado la imaginación de millones de personas.

Alibaba afirma que Animate Anyone puede transformar fotos en vídeos «según las secuencias de poses deseadas y logrando una continuidad temporal», explica en Twitter la startup de avatares de IA MyCompanions. «Menos fallos y sin dedos de más: ¡guay!».

El equipo añade que esta tecnología abre las puertas a nuevos casos de uso entre los influencers: ropa generada por IA y creación de un mercado para vídeos producidos en masa pero personalizados.

¿Vídeos cortos a partir de una sola foto? ¡Pronto podremos hacer esto para todos nuestros influencers!

Según las últimas investigaciones de vanguardia del grupo Alibaba, esto ya está casi aquí. ¿Por qué es importante esta tecnología? Cómo pueden los influencers utilizar mejor esta tecnología?

Hilo a continuación pic.twitter.com/C4QCJCeEXP

– MyCompanions (@MyCompanionsAI) 3 de diciembre de 2023

La página GitHub del modelo ha recibido un aluvión de solicitudes de acceso al código fuente. En respuesta, el equipo ha asegurado al público que pondrá a disposición la demo y el código en una fecha aún no especificada.

«Gracias a todos por vuestro increíble apoyo e interés en nuestro proyecto», afirma el equipo en la última actualización de Github. «Queremos aseguraros que estamos trabajando activamente en la preparación de la demo y el código para su lanzamiento público».

La declaración obtuvo más de 240 «me gusta» en menos de un día.

Si la demostración en vídeo es correcta, Animate Anyone puede utilizarse para crear resultados de vídeo claros y temporalmente estables, manteniendo la apariencia del personaje de referencia. Esto parece ser el resultado de la integración de modelos de difusión en un novedoso marco llamado ReferenceNet, que puede fusionar características detalladas a través de la atención espacial.

Para ello, toma la imagen de referencia, mueve las partes para que sigan la pose deseada y, a continuación, rellena los huecos necesarios para dar la ilusión de un movimiento coherente en cada fotograma del vídeo generado. La llamada secuencia openpose da como resultado una animación casi perfecta.

Animate Anyone también se está comparando favorablemente con otras herramientas de animación populares como AnimateDiff, Warpfusion, Deforum y ebSynth. Estas herramientas suelen fallar a la hora de generar fotogramas coherentes, lo que facilita la identificación de los vídeos como generados por IA. En cambio, Animate Anyone ofrece resultados más refinados, en los que los fotogramas son coherentes y la animación casi no se distingue de la realidad.

El equipo de Animate Anyone no ha respondido a la solicitud de comentarios de TCN.

En medio del frenesí, sin embargo, un modelo similar llamado MagicAnimate también ha surgido como un sólido competidor. MagicAnimate, disponible desde hace poco para pruebas locales, adopta un enfoque ligeramente distinto del proceso de animación. Aunque no es tan popular, su lanzamiento ofrece una alternativa para quienes deseen explorar más a fondo el reino de la animación impulsada por IA.

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model con @Gradio demo

demo local: https://t.co/ScsEU6oG64

Este trabajo estudia la tarea de animación de imagen humana, cuyo objetivo es generar un vídeo de una determinada identidad de referencia siguiendo un movimiento particular… pic.twitter.com/JCOr0yCRZs

– AK (@_akhaliq) 4 de diciembre de 2023

En contraste con Animate Anyone -que también utiliza un modelo de difusión pero centrado en la animación controlable y coherente con los fotogramas a partir de imágenes-, el elemento diferenciador de MagicAnimate es la mejora de la coherencia temporal y la preservación de la identidad. Su exclusiva técnica de codificación de apariencias y fusión de vídeo permite transiciones más suaves en animaciones de vídeo largas y una mejor conservación de los detalles entre fotogramas.

Aunque MagicAnimate destaca en coherencia temporal y calidad por fotograma, no parece ser tan preciso como su competidor.

Alex Carliera, antiguo investigador de Meta AI, tuvo la oportunidad de probar MaticAnimate y, aunque lo calificó como «un gran primer paso para la generación coherente de vídeo a partir de una sola imagen», observó que las generaciones no eran 100% precisas frente a la imagen de referencia, deformando el cuerpo en algunos fotogramas.

He probado el ControlNet para vídeo (MagicAnimate) y he aquí mi opinión: funciona muy bien, pero tiene algunos defectos.

– la identidad del video en movimiento se filtra al video resultante (y deforma la forma del cuerpo)
– malas manos y la cara (¡como era de esperar!)

Pero un gran primer paso para ser coherente… https://t.co/zY9tZZ6MaK pic.twitter.com/J9XELE5NGT

– Alex Carlier (@alexcarliera) 4 de diciembre de 2023

Así que si no sabes bailar y te sientes excluido de las últimas coreografías de TikTok, quizá Animate Anyone y MagicAnimate puedan ser tu billete hacia el éxito viral.

El gigante tecnológico chino Alibaba muestra una IA capaz de «animar a cualquiera».

La IA aún no es tan inteligente como tu perro: Alto científico de Meta

¿La mejor de la exposición? BONK de Solana se une a Dogecoin y SHIB como las mejores monedas de perro

Related Posts

Leave a Comment Cancel Reply