Los Chiefs estudian una posible oferta al entrenador inglés

La tecnología de generación de imágenes mediante inteligencia artificial (IA) se está acelerando rápidamente, en más de un sentido. Los últimos avances han catapultado a la industria de un progreso constante a avances incesantes, que ahora prometen la llegada de la creación de imágenes de alta fidelidad en tiempo real.

No es que estas herramientas fueran lentas: un minuto no es demasiado tiempo para esperar a «hacerlo más». Pero los usuarios siguen exigiendo más: más realismo, más versatilidad, más variedad y más rapidez. Y en este último punto, los investigadores están encantados de cumplir.

SDXL pisa el acelerador

Stability AI ha presentado SDXL Turbo, que puede representar un salto monumental en la generación de imágenes con IA. No lo decimos a la ligera: el modelo recién anunciado puede generar imágenes en un segundo en lugar de los 30 a más de 60 segundos que tardan los generadores habituales. Es casi, si no efectivamente, generación de imágenes de IA en tiempo real.

SDXL Turbo es diferente de todos los modelos de Difusión Adversarial anteriores. La tecnología Adversarial Diffusion Distillation (ADD) permite reducir significativamente el número de pasos necesarios para generar imágenes de alta calidad: tan solo un paso, cuando las imágenes normales pueden requerir entre 30 y 100 pasos. «ADD es el primer método de síntesis de imágenes en un solo paso y en tiempo real con modelos de base», afirma Stability AI en un documento de investigación.

Presentación de SDXL Turbo: Un modelo de generación de texto a imagen en tiempo real.

SDXL Turbo consigue un rendimiento de vanguardia gracias a una nueva tecnología de destilación que permite generar imágenes en un solo paso con una calidad sin precedentes, reduciendo el número de pasos necesarios de 50 a sólo uno.

La… pic.twitter.com/0NA4aUqKkD

– Stability AI (@StabilityAI) 28 de noviembre de 2023

SDXL Turbo emplea un híbrido de entrenamiento adversarial y destilación de puntuación, optimizando el proceso generativo y garantizando que las imágenes se produzcan rápidamente manteniendo una alta fidelidad.

Como resultado, la introducción de SDXL Turbo permite la producción de imágenes complejas de alta resolución de forma casi instantánea. Este nuevo enfoque también llama la atención sobre las GAN, que cayeron en el olvido después de que la tecnología de difusión empezara a dominar la escena.

Los modelos de consistencia latente significan eficiencia

Sin embargo, si no quiere despedirse de sus modelos de difusión estable «heredados», los investigadores tienen una solución para usted.

Acompañando a los avances de SDXL Turbo están los Modelos de Consistencia Latente (LCM) y LCM-LoRA, cada uno de los cuales contribuye de forma única al campo.

Los LCM, tal y como se presentan en su documento de investigación específico, destacan por su capacidad para generar imágenes de alta resolución operando de forma eficiente dentro del espacio latente de autocodificadores preentrenados como Stable Diffusion. El objetivo de los LCM es mejorar la velocidad de generación de imágenes sin una pérdida significativa de calidad, centrándose en resultados de alta resolución. Utilizando un método de destilación guiada de una etapa, los LCM transforman los modelos de difusión preentrenados en rápidos generadores de imágenes, saltándose pasos innecesarios.

En la práctica, los usuarios no necesitan cambiar nada más. Basta con descargar el modelo y utilizarlo como un punto de control SDXL normal. Sin embargo, en lugar de ejecutar un gran número de pasos, podrían reducir el calibre al mínimo. El modelo producirá buenas imágenes con cuatro pasos en un par de segundos, en lugar de calcular la generación para 25, 50 o 75 pasos por imagen.

Ya existen grandes modelos con sus propias versiones de LCM para que los pruebes. Recomendamos Hephaistos_NextGENXL por su versatilidad, pero hay muchos grandes modelos disponibles para probar.

Publicamos Pixart-alpha x LCM ！⚡️

Feliz de lanzar otro trabajo de colaboración con Pixart-alfa team！@lawrence_cjs

mira el enlace aquí：https://t.co/9qTYKyiaQk pic.twitter.com/HPUmXYERrk

– Allen (Simian) Luo (@SimianLuo) 30 de noviembre de 2023

LCM-LoRAS: turboalimentación de cualquier modelo

Lanzado junto con los LCM, LCM-LoRA ofrece un módulo de aceleración universal que puede integrarse en varios modelos de difusión estable. «LCM-LoRA puede considerarse un solucionador PF-ODE neuronal complementario con una gran capacidad de generalización», se lee en el artículo de investigación.

LCM-LoRA está diseñado para aumentar la eficacia de los modelos de difusión estable existentes, haciéndolos más rápidos y versátiles. Emplea LoRA (Low-Rank Adaptation) para actualizar las matrices de pesos preentrenadas, reduciendo la carga computacional y los requisitos de memoria.

Con LCM-LoRA, los modelos normales de difusión estable experimentan un enorme aumento de su velocidad de generación de imágenes, lo que los hace muy eficaces para diversas tareas. Los usuarios ni siquiera tendrían que descargar un nuevo modelo: basta con activar LCM LoRA para generar imágenes tan rápido como lo haría un modo LCM..

Calidad frente a velocidad

A pesar de estos avances tecnológicos, sigue siendo necesario encontrar un equilibrio entre velocidad y calidad de imagen. Aunque las herramientas de generación rápida como SDXL Turbo y LCM-LoRA agilizan el proceso creativo, lo hacen a expensas de cierta fidelidad de imagen. En otras palabras, una imagen generada con 50 pasos y un buen modelo siempre tendrá mayor resolución o fidelidad de imagen que una imagen generada con 5 pasos y un buen modelo LCM.

Sin embargo, esta compensación se ve mitigada por su utilidad en los flujos de trabajo típicos, en los que se generan numerosas imágenes para encontrar la perfecta. Las iteraciones posteriores con herramientas como image-to-image o inpaint pueden mejorar los detalles de estas imágenes de primer corte, compensando cualquier pérdida inicial de calidad. Una imagen correctamente editada y generada con una de estas tecnologías rápidas puede ser tan buena como una imagen generada con un modelo de difusión estable normal.

Abróchense los cinturones porque el espacio de generación de imágenes de IA se está acelerando, y pocas personas ansían más la velocidad que los fanáticos de la IA.

Los Chiefs estudian una posible oferta al entrenador inglés

SDXL pisa el acelerador

Los modelos de consistencia latente significan eficiencia

LCM-LoRAS: turboalimentación de cualquier modelo

Calidad frente a velocidad

Sorpresa: ‘Cyberpunk 2077’ recibe una gran actualización con romance y opciones de tránsito

Aqua, el mercado de NFT para juegos de Ethereum, echa el cierre alegando el lento crecimiento del sector

Related Posts

Leave a Comment Cancel Reply