Home » Новая версия MidJourney V6 обновляет визуальные эффекты и занимается генерацией текста (в основном)

Новая версия MidJourney V6 обновляет визуальные эффекты и занимается генерацией текста (в основном)

by Thomas

MidJourney только что анонсировала свою новую модель генератора изображений с искусственным интеллектом, базовую модель V6, в многолюдной гонке за власть над сферой цифрового творчества. По словам команды разработчиков, V6 уже сегодня будет запущен в альфа-тестирование и будет отличаться повышенной точностью подсказок, улучшенной согласованностью и — впервые за все время существования MidJourney — возможностью генерации текста.

Анонсированный в официальном сообщении в Discord, V6 позиционируется как значительная переработка.

«Значительно более точное следование подсказкам, а также более длинные подсказки, улучшенная связность и знание моделей», — говорится в сообщении, подчеркивая его прогресс по сравнению с предыдущей моделью V5.1, выпущенной в мае 2023 года. Модель V5, отличавшаяся простотой использования коротких подсказок и эстетическими улучшениями, проложила путь к более сложной и детальной модели V6.


Одним из самых примечательных компонентов V6 является возможность рисования текста. Хотя она не является центральным элементом модели — команда говорит, что это все еще «незначительная» функция — эта возможность ставит MidJourney в прямую конкуренцию с другими ведущими моделями, такими как Dall-E 3 и Ideogram. Однако подход MidJourney к генерации текста уникален.

Описывая его как «незначительную возможность рисования текста», Midjourney заявляет. «Вы должны писать текст в «кавычках», и в этом могут помочь —style raw или более низкие значения —stylize».

TCN удалось протестировать модель и сравнить ее с Dall-E 3, известной своей точностью в генерации текста. Оказалось, что MidJourney отдает предпочтение стилю и эстетике, иногда в ущерб точности текста. В большинстве случаев он генерировал либо неточный текст, либо вообще не генерировал. Но когда он все же появлялся, изображения были на уровне или даже лучше, чем у Dall-E 3, модели ИИ «текст-изображение», используемой в ChatGPT и Microsoft Bing.


Сравнивая генерации текста, полученные с помощью MidJourney, Dall-E 3, SDXL с Harrlogos и Ideogram AI, можно дать слишком упрощенную рекомендацию: использовать MidJourney, если эстетика является приоритетом, Dall-E 3 — для простоты использования и эстетики мультипликационного цифрового искусства, SDXL — для тех, кто хорошо знает A1111, а Ideogram AI — для результатов, в которых текст важнее, чем эстетика.

MidJourney и Dalle-3 с ChatGPT в настоящее время стоят денег, в то время как SDXL и Ideogram AI бесплатны. Версия Dall-E 3 от Bing бесплатна для использования, но она генерирует только квадратные изображения, и люди могут только изменять подсказки вместо естественного подхода к разговору, используемого OpenAI.

MidJourney V6 также немного медленнее и дороже, чем v5, однако команда подчеркивает, что со временем она сосредоточится на ускорении модели. Модель V6 также может похвастаться улучшенными апскейлерами в режимах «тонкий» и «творческий», повышающими разрешение изображения в 2 раза.

Эти функции в сочетании с разнообразным набором поддерживаемых аргументов, таких как —ar (для изменения разрешения), —chaos (для изменения вариаций между поколениями) и —stylize (для изменения степени креативности модели), предлагают пользователям широкий спектр творческих возможностей. Однако другие функции, такие как раскраска, раскраска и описание изображений, пока недоступны. По словам MidJourney, они должны появиться в обновлении в следующем месяце.

В сообщении говорится, что пользователи должны использовать эти «невероятные возможности с радостью, удивлением, ответственностью и уважением», что всегда было частью этики MidJourney. Но не стоит слишком радоваться, поскольку цензура будет более строгой.

«Не будьте придурками и не создавайте изображения, чтобы вызвать драму», — говорится в объявлении. Скорее всего, это блокирует попытки создания цифровых вайфусов или политических фейков.

Related Posts

Leave a Comment