El nuevo generador de imágenes de IA hace más que SDXL con menos

Stability AI, la empresa creadora del popular generador de imágenes Stable Diffusion, acaba de lanzar otra granada en el competitivo campo de la IA.

El nuevo Stable Cascade de Stability, basado en la nueva arquitectura Würstchen de código abierto, ofrece un enfoque altamente eficiente y modular para la generación de texto a imagen, equilibrando calidad, velocidad y adaptabilidad.

Según la empresa, el modelo alcanza un factor de compresión sin precedentes en los modelos tradicionales de difusión estable y es capaz de producir resultados de mayor resolución y detalle, comparables a los de generadores modernos como SDXL o MidJourney (que suelen trabajar con resoluciones de 1024×1024).

Imagen: Estabilidad AI

Ingredientes Würstchen

La cascada estable adopta un proceso de tres etapas, a diferencia del proceso tradicional de difusión estable:

Etapa A: El compresor de imágenes: A diferencia de los modelos típicos, esta etapa inicial procesa las imágenes como si fueran rompecabezas avanzados. Utilizando una red VQGAN (Vector-Quantized Generative Adversarial Network), la imagen se trocea en secciones compactas de 256×256 píxeles. Cada sección recibe un «token» discreto de un libro de códigos especializado. Este paso allana el camino para el procesamiento ultrarrápido en las etapas siguientes.
Etapa B: El reconstructor (modelo de difusión latente) Esta fase se encarga del trabajo de reconstrucción de la imagen tras la compresión. Piense en ella como si fuera un experto renovador de edificios que utiliza instrucciones detalladas y planos para su trabajo.
Fase C: El Generador de Latentes Texto-Condicional La fase C se centra únicamente en el procesamiento de instrucciones basadas en texto y en la producción de latentes comprimidas. Este enfoque de generación de texto desacoplado reduce drásticamente la complejidad y el coste del ajuste fino para casos de uso específicos.

Imagen: Estabilidad AI

En otras palabras, hace lo que su nombre indica. Comienza con un generador basado en texto que produce pequeñas instantáneas de imágenes, que se inflan en una más detallada, y luego se presentan adecuadamente a tus ojos como una imagen de alta calidad y resolución completa.

Ventajas modulares

El diseño modular de Stable Cascade aporta varias ventajas convincentes, según sus desarrolladores. La primera es la extrema eficiencia: gracias al espacio latente comprimido (la forma en que una IA evalúa la composición de una imagen, en contraposición al espacio de píxeles, que es lo que ven los humanos) y al modelo Stage C centrado, Stable Cascade logra tiempos de inferencia más rápidos, lo que significa que calcula sus predicciones con mayor rapidez. Y lo hace con unos requisitos de hardware significativamente reducidos en comparación con modelos de Difusión Estable más grandes como SDXL.

Las pruebas internas de Stability AI demostraron la capacidad de Stable Cascade para superar sistemáticamente a modelos comparables como SDXL en términos de calidad de imagen y atractivo estético. Además, el modelo logra estos resultados a velocidades muy elevadas y exige muchos menos recursos informáticos.

Imagen: Estabilidad AI

Otra ventaja de la que presume Stability AI es su versatilidad. Muchas de las herramientas que los artistas de Stable Diffusion utilizan ahora para perfeccionar su trabajo -como ControlNets o LoRas- son compatibles. Y, gracias a su extrema eficacia, los usuarios pueden añadir más de estas herramientas a sus flujos de trabajo sin colapsar sus memorias.

La arquitectura ligera del modelo, su menor huella y su compatibilidad con hardware informático menos potente reducen la barrera de entrada, lo que aumenta la accesibilidad de las técnicas avanzadas de generación de texto a imagen tanto para los usuarios ocasionales como para los investigadores.

Hacer más con menos

Nuestras pruebas han revelado que el modelo es preciso y detallado, y no muestra la estética desvaída y gomosa de los anteriores modelos SDXL turbo o LCM de Stability AI. En su lugar, genera imágenes muy detalladas a la par que los modelos SDXL perfeccionados.

También dispone de algunas funciones básicas de generación de texto, que pueden mejorarse con LoRA disponibles en repositorios en línea como Civitai.

Stability AI informa de que, a pesar de albergar más parámetros que Stable Diffusion XL, Stable Cascade sigue disfrutando de tiempos de inferencia más rápidos y destaca en la alineación rápida.

El ajuste de Stable Cascade también consume menos recursos que los modelos de tamaño similar de Stable Diffusion. Los investigadores y aficionados pueden entrenar el modelo en conjuntos de datos más pequeños y con mucha menos potencia de cálculo, lo que lo hace muy rentable.

Stable Cascade se publica bajo una licencia de investigación no comercial y está disponible en el repositorio GitHub de Stability AI con un flujo de trabajo ComfyUI mantenido por la comunidad que descarga automáticamente los modelos para facilitar su uso.

El nuevo generador de imágenes de IA hace más que SDXL con menos

Ingredientes Würstchen

Ventajas modulares

Hacer más con menos

Temporada de puntos: ¿Quién está ganando la guerra de los mercados de NFT en Ethereum, Solana y Bitcoin?

El ETF de Bitcoin de BlackRock gana 500 millones de dólares mientras crece el apetito de Wall Street por BTC

Related Posts

Leave a Comment Cancel Reply