Home » El método de personalización de imágenes de IA de Nvidia cabe en un disquete y se entrena en 4 minutos

El método de personalización de imágenes de IA de Nvidia cabe en un disquete y se entrena en 4 minutos

by Tim

En el panorama en rápida evolución de las herramientas de creación artística con IA, los investigadores de Nvidia han presentado un nuevo e innovador método de personalización de texto a imagen llamado Perfusion. Pero no se trata de un modelo superpesado de un millón de dólares como sus competidores. Con un tamaño de sólo 100 KB y un tiempo de entrenamiento de 4 minutos, Perfusion permite una gran flexibilidad creativa a la hora de representar conceptos personalizados manteniendo su identidad.

Perfusion se presentó en un trabajo de investigación creado por Nvidia y la Universidad de Tel-Aviv, en Israel. A pesar de su pequeño tamaño, es capaz de superar en eficiencia de ediciones específicas a los métodos de retoque utilizados por los principales generadores de arte de IA, como Stable Diffusion v1.5 de Stability AI, el recién lanzado Stable Diffusion XL (SDXL) y MidJourney.

Imagen: Nvidia Research

Imagen: Nvidia Research


La principal novedad de Perfusion se llama «Key-Locking». Funciona conectando nuevos conceptos que un usuario quiere añadir, como un gato o una silla concretos, a una categoría más general durante la generación de imágenes. Por ejemplo, el gato se vincularía a la idea más amplia de «felino».

Esto ayuda a evitar el sobreajuste, que es cuando el modelo se ajusta demasiado a los ejemplos exactos de entrenamiento. El sobreajuste dificulta que la IA genere nuevas versiones creativas del concepto.

Al vincular el nuevo gato a la noción general de felino, el modelo puede representar al gato en muchas poses, apariencias y entornos diferentes. Pero sigue conservando la «gaturidad» esencial que le hace parecerse al gato deseado, no a un felino cualquiera.

En pocas palabras, Key-Locking permite a la IA retratar con flexibilidad conceptos personalizados sin perder su identidad básica. Es como darle a un artista las siguientes instrucciones: «Dibuja a mi gato Tom, mientras duerme, juega con hilo y olfatea flores».

Por qué Nvidia piensa que menos es más

Perfusion también permite combinar varios conceptos personalizados en una sola imagen con interacciones naturales, a diferencia de las herramientas existentes que aprenden los conceptos de forma aislada. Los usuarios pueden guiar el proceso de creación de imágenes mediante indicaciones de texto, fusionando conceptos como un gato y una silla concretos.

Perfusion ofrece una función extraordinaria que permite a los usuarios controlar el equilibrio entre la fidelidad visual (la imagen) y la alineación textual (la indicación) durante la inferencia ajustando un único modelo de 100 KB. Esta función permite a los usuarios explorar fácilmente el frente de Pareto (similitud textual frente a similitud de imagen) y seleccionar el equilibrio óptimo que se adapte a sus necesidades específicas, todo ello sin necesidad de volver a entrenar. Es importante señalar que el entrenamiento de un modelo requiere cierta delicadeza. Si nos centramos demasiado en reproducir el modelo, éste producirá el mismo resultado una y otra vez, y si le obligamos a seguir la indicación con demasiada precisión y sin libertad, el resultado suele ser malo. La flexibilidad para ajustar el grado de aproximación del generador a la indicación es un elemento importante de la personalización.

Otros generadores de imágenes de IA tienen formas para que los usuarios ajusten la salida, pero son voluminosos. Como referencia, un LoRA es un método popular de ajuste fino utilizado en Stable Diffusion. Puede añadir desde docenas de megabytes hasta más de un gigabyte (GB) a la aplicación. Otro método, las incrustaciones de inversión textual, son más ligeras pero menos precisas. Un modelo entrenado con Dreambooth, la técnica más precisa en la actualidad, pesa más de 2 GB.

Imagen: Nvidia Research

Imagen: Nvidia Research


En comparación, Nvidia afirma que Perfusion produce una calidad visual y una alineación con las indicaciones superiores a las principales técnicas de IA antes mencionadas. Su tamaño ultraeficiente permite actualizar sólo las partes necesarias para ajustar con precisión la producción de una imagen, en comparación con la huella de varios GB de los métodos que ajustan con precisión todo el modelo.
Esta investigación coincide con el creciente interés de Nvidia por la IA. Las acciones de la compañía han subido más de un 230% en 2023, ya que sus GPU siguen dominando el entrenamiento de modelos de IA. Con entidades como Anthropic, Google, Microsoft y Baidu invirtiendo miles de millones en IA generativa, el innovador modelo Perfusion de Nvidia podría darle ventaja.

Por ahora, Nvidia sólo ha presentado el documento de investigación, pero promete publicar el código en breve.

Related Posts

Leave a Comment