AI Art Showdown: Las mejores herramientas: MidJourney, Stable Diffusion v1.5 y SDXL

La era del arte generado por IA está en marcha, y tres titanes se han erigido como herramientas favoritas de los creadores digitales: El nuevo SDXL de Stability AI, su viejo conocido Stable Diffusion v1.5, y su principal competidor: MidJourney.

Dall-E de OpenAI inició esta revolución, pero su falta de desarrollo y el hecho de que sea de código cerrado hacen que Dall-E 2 no destaque en ninguna categoría frente a sus competidores. Sin embargo, como TCN informó hace unos días, esto podría cambiar en el futuro, ya que openAI está probando una nueva versión de Dall-E que, según se informa, es competente y produce piezas sobresalientes.

Con puntos fuertes y limitaciones únicos, elegir la herramienta adecuada entre las principales plataformas es clave. Veamos en qué se parecen estas tecnologías de arte generativo en cuanto a capacidades, requisitos, estilo y belleza.

MidJourney: la droga de entrada para el arte de la IA

Théâtre d’Opéra Spatial, una imagen de Midjourney que ganó el primer premio en un concurso de arte digital

Como la más fácil de usar del trío, MidJourney hace accesible el arte de la IA incluso a usuarios sin conocimientos técnicos, siempre que estén familiarizados con Discord. La plataforma funciona de forma privada en los servidores de MidJourney, y los usuarios interactúan a través del chat de Discord. Este enfoque cerrado tiene ventajas e inconvenientes. La ventaja es que no se necesita ningún hardware especializado ni conocimientos de inteligencia artificial. Pero la falta de transparencia del código abierto en torno al modelo y los datos de entrenamiento de MidJourney limita bastante lo que se puede hacer, y hace imposible que los entusiastas lo mejoren.

MidJourney es el más encantador de todos, muy apreciado por los principiantes por su sencilla interfaz de Discord. Basta con enviar un mensaje de texto al bot y, voilà, tendrás una obra maestra de la estética en cuestión de minutos. ¿El inconveniente? A 96 dólares al año, es caro para una IA que no puedes personalizar ni ejecutar localmente. Pero bueno, al menos quedarás como un artista (y un empollón) en las fiestas.

Desde el punto de vista funcional, MidJourney genera imágenes rápidamente a partir de mensajes de texto, con una cohesión estética impresionante. Pero si profundizas en un tema específico, el resultado se vuelve más extraño. A MidJourney le gusta dar su propio toque a cada creación, aunque no sea lo que imaginaba el prompter. Así que la mayoría de las imágenes pueden estar saturadas con una bomba en el contraste y tienden a ser más fotorrealistas que realistas, hasta el punto de que después de algún tiempo la gente llega a identificar las imágenes creadas con MidJourney basándose en sus características estéticas.

Con MidJourney, tu libertad creativa también se ve limitada por las estrictas normas de contenido de la plataforma. Está agresivamente censurada, tanto socialmente (en cuanto a la representación de desnudos o violencia) como políticamente (en cuanto a temas controvertidos y líderes concretos). En general, MidJourney ofrece una tentadora puerta de entrada al arte de la IA, pero los usuarios avanzados desearán más control y personalización. Ahí es cuando entra en juego la Difusión Estable.

Difusión estable v1.5: el «viejo fiable» del arte de la IA

Imagen sin título creada por el usuario ThaiTvNews utilizando un modelo SD v.15 personalizado.

Si MidJourney es un paseo en poni, Stable Diffusion v1.5 es el fiable caballo de batalla. Como modelo de código abierto que ha estado en desarrollo activo durante más de un año, Stable Diffusion v1.5 impulsa muchas de las herramientas de arte de IA más populares de la actualidad, como Leonardo AI, Lexica, Mage Space y todos esos generadores de waifu de IA que ahora están disponibles en Google Play store.

La activa comunidad MidJourney ha iterado sobre el modelo base para crear puntos de control especializados, incrustaciones y LoRAs centrados en todo, desde la estilización del anime a intrincados paisajes, fotografías hiperrealistas y mucho más. ¿Las desventajas? Bueno, está empezando a mostrar su edad al lado de los jóvenes genios de la IA.

Con algunos ajustes, Stable Diffusion v1.5 puede generar imágenes nítidas y detalladas adaptadas a tu visión creativa. La resolución de salida está actualmente limitada a 512×512 o, a veces, a 768×768 antes de que la calidad se degrade, pero las técnicas de escalado rápido ayudan. La popularidad del escalado ascendente en mosaico también ha impulsado la popularidad de este modelo, capaz de generar imágenes a superresolución, mucho más allá de lo que puede hacer MidJourney.

Ahora mismo es la única tecnología que admite inpainting (cambiar cosas dentro de la imagen). También admite el outpainting, que permite al modelo ampliar la imagen más allá de su marco. Es multidireccional, lo que significa que los usuarios pueden ampliar la imagen tanto en el eje vertical como en el horizontal. También es compatible con plugins de terceros como roop (utilizado para crear deepfakes), After Detailer (para mejorar rostros y manos), Open Pose (para imitar una pose específica) e indicaciones regionales.

Para ejecutarlo, los creadores sugieren que necesitarás una GPU Nvidia RTX de la serie 2000 o superior para obtener un rendimiento decente, pero la ligereza de Stable Diffusion v1.5 se ejecuta sin problemas incluso en tarjetas con 4 GB de VRAM. A pesar de su antigüedad, el sólido apoyo de la comunidad mantiene a este OG del arte de la IA en la cima de su juego.

SDXL: La próxima frontera del arte de la IA

Imagen sin título creada por el usuario Buzimage utilizando un modelo SDXL personalizado

Si Stable Diffusion v1.5 es el caballo de batalla fiable, SDXL es el joven purasangre que corre por el hipódromo. Este potente modelo, también de Stability AI, aprovecha los codificadores de texto duales para interpretar mejor las indicaciones, y su proceso de generación en dos fases consigue una coherencia de imagen superior a altas resoluciones.

Estas capacidades parecen apasionantes, pero también hacen que SDXL sea un poco más difícil de dominar. A un codificador de texto le gusta el lenguaje natural corto y el otro utiliza el estilo de SD v1.5 de palabras clave picadas y específicas para describir la composición.

La generación en dos etapas significa que se necesita un modelo refinador para poner los detalles en la imagen principal. Requiere tiempo, RAM y potencia de cálculo, pero los resultados son magníficos.

SDXL está listo para llamar la atención. Con casi el triple de parámetros que Stable Diffusion v1.5, SDXL está sacando músculo: genera imágenes con casi un 50% más de resolución que su predecesor sin sudar la gota gorda. Pero este rendimiento de vanguardia tiene un coste: SDXL necesita una GPU con un mínimo de 6 GB de VRAM, requiere archivos de modelo más grandes y carece de especializaciones preentrenadas.

El resultado inmediato no está a la altura de un modelo de difusión estable bien ajustado. Sin embargo, a medida que la comunidad trabaje su magia de optimización, el potencial de SDXL volará las puertas de lo que es posible con los modelos actuales.

Comparaciones de resultados

Una imagen vale más que mil palabras, así que hemos resumido unas cuantas miles de frases intentando comparar diferentes salidas utilizando indicaciones similares para que puedas elegir la que más te guste. Ten en cuenta que cada modelo requiere una técnica de guiado diferente, así que, aunque no sea una comparación exacta, es un buen punto de partida.

Para ser más específicos, utilizamos un indicador negativo bastante generalizado para la difusión estable, algo que MidJourney no necesita realmente. Aparte de eso, las indicaciones son las mismas, y los resultados no se seleccionaron manualmente.

Prompt: Retrato de un corgi en bicicleta cruzando el mar

Comentario: Aquí es sólo una cuestión de estilo entre SDXL y MidJourney. Ambos ganan a Stable Diffusion v1.5 a pesar de que parece ser el único capaz de crear un perro que «monte» adecuadamente la moto, o al menos que la use correctamente.

Prompt: La Plaza Roja de noche

Comentario: MidJourney trató de crear un cuadrado rojo en La Plaza Roja. SDXL v1.0 es más nítido, pero el contraste de colores es mejor en SD v.15 (Modelo: Juggernaut v5).

Prompt: Una profesora tetona en un aula futurista

Comentario: MidJourney se negó a generar una imagen debido a sus normas de censura. SDXL es más rica en detalles cuidando de producir tanto la profesora pechugona como el aula futurista. SD v1.5 se centró más en la profesora pechugona (el sujeto. Modelo: Photon v1) y menos en los detalles del entorno.

Prompt: un cerebro dando energía a una máquina, jeffrey smith y h.r. giger, altamente detallado en 4k, por Nishida Shun’ei, póster, herramienta, épico altamente detallado, ciberpunk épico, studio muti, mapa de bits, por Sugimura Jihei

Comentario: Tanto MidJourney como SDXL produjeron resultados que se ciñen a lo previsto. SDXL reprodujo mejor el estilo artístico, mientras que MidJourney se centró más en producir una imagen estéticamente agradable en lugar de recrear el estilo artístico, pero también perdió muchos detalles del texto (por ejemplo: la imagen no muestra un cerebro alimentando una máquina, sino un cráneo alimentando una máquina).

El futuro del arte generativo

¿Qué Monet en formación debería utilizar? Francamente, no puede equivocarse con ninguna de estas opciones. MidJourney destaca por su facilidad de uso y su cohesión estética. Stable Diffusion v1.5 ofrece personalización y apoyo de la comunidad. Y SDXL supera los límites de la generación de imágenes fotorrealistas. Mientras tanto, no te pierdas lo que Dall-E está preparando.

No te conformes con nuestra palabra. El pincel ya está en tus manos y el lienzo en blanco te espera. Coge la herramienta generativa que prefieras y empieza a crear. Pero mantén las amenazas existenciales a la humanidad al mínimo, por favor.

AI Art Showdown: Las mejores herramientas: MidJourney, Stable Diffusion v1.5 y SDXL

MidJourney: la droga de entrada para el arte de la IA

Difusión estable v1.5: el «viejo fiable» del arte de la IA

SDXL: La próxima frontera del arte de la IA

Comparaciones de resultados

El futuro del arte generativo

La moneda BALD Meme en la capa 2 de Coinbase llega a cero cuando el desarrollador retira la liquidez

Margot Robbie, de Barbie, dice que Bitcoin es para ‘Kens’-mientras Mattel promueve las NFTs

Related Posts

Leave a Comment Cancel Reply