Home » La nueva versión MidJourney V6 mejora los efectos visuales y aborda la generación de texto (en su mayor parte)

La nueva versión MidJourney V6 mejora los efectos visuales y aborda la generación de texto (en su mayor parte)

by Patricia

MidJourney acaba de anunciar su nuevo modelo de generador de imágenes de IA, el modelo base V6, en la reñida carrera por dominar el reino de la creatividad digital. El equipo de desarrollo ha anunciado que el modelo V6, que se lanzará hoy para las pruebas alfa, ofrece una mayor precisión en las indicaciones, una coherencia mejorada y, por primera vez en la evolución de MidJourney, funciones de generación de texto.

Anunciada en un post oficial de Discord, la V6 se presenta como una importante revisión.

«Un seguimiento mucho más preciso de las instrucciones, así como instrucciones más largas, coherencia mejorada y conocimiento del modelo», revela el anuncio, destacando su avance con respecto al anterior modelo V5.1, lanzado en mayo de 2023. El modelo V5, que destacaba por sus indicaciones breves y fáciles de usar y por su mejora estética, allanó el camino para el modelo V6, más sofisticado y detallado.

Aunque no es el punto central del modelo -el equipo dice que sigue siendo una función «menor»-, esta capacidad sitúa a MidJourney en competencia directa con otros modelos punteros como Dall-E 3 e Ideogram. Sin embargo, el enfoque de MidJourney respecto a la generación de texto es único.

Midjourney lo describe como una «capacidad menor de dibujo de texto». «Debe escribir el texto entre ‘comillas’ y los valores –style raw o lower –stylize pueden ayudar».

TCN pudo probar el modelo y compararlo con Dall-E 3, conocido por su precisión en la generación de texto. MidJourney parece dar prioridad al estilo y la estética, a veces a costa de la precisión del texto. La mayoría de las veces no generaba texto o lo hacía de forma imprecisa. Pero cuando lo hacía, las imágenes estaban a la par o incluso eran mejores que las generadas por Dall-E 3, el modelo de IA de texto a imagen de ChatGPT y Microsoft Bing.

Comparando las generaciones de texto de MidJourney, Dall-E 3, SDXL con Harrlogos e Ideogram AI, una recomendación demasiado simplificada podría ser utilizar MidJourney si la estética es una prioridad, Dall-E 3 por la facilidad de uso y la estética de arte digital de dibujos animados, SDXL para los que tienen conocimientos avanzados de A1111, e Ideogram AI para resultados en los que el texto es más importante que la estética.

MidJourney y Dalle-3 con ChatGPT cuestan dinero actualmente, mientras que SDXL e Ideogram AI son gratuitos. La versión de Bing de Dall-E 3 es gratuita, pero sólo genera imágenes cuadradas y los usuarios sólo pueden modificar las indicaciones, en lugar del enfoque de conversación natural adoptado por OpenAI.

MidJourney V6 también es un poco más lenta y cara que la v5, aunque el equipo hace hincapié en su empeño por acelerar el modelo con el tiempo. El modelo V6 también cuenta con escaladores mejorados en los modos «sutil» y «creativo», que multiplican por dos la resolución de la imagen.

Estas características, unidas a una variada gama de argumentos compatibles como –ar (para cambiar la resolución), –chaos (para cambiar las variaciones entre generaciones) y –stylize (para cambiar el grado de creatividad del modelo), ofrecen a los usuarios un amplio espectro de posibilidades creativas. Sin embargo, otras funciones como inpainting, outpainting y descripción de imágenes aún no están disponibles. Deberían llegar en una actualización el mes que viene, según MidJourney.

El anuncio insta a los usuarios a emplear estos «increíbles poderes con alegría, asombro, responsabilidad y respeto», lo que siempre ha formado parte de la filosofía de MidJourney. Pero no te emociones demasiado, ya que serán más estrictos con la censura.

«No seas gilipollas ni crees imágenes para causar drama», reza el anuncio. Lo más probable es que eso bloquee los intentos de crear waifus digitales o deepfakes políticos.

Related Posts

Leave a Comment