Home » Разбор искусственного интеллекта: Сравнение лучших инструментов MidJourney, Stable Diffusion v1.5 и SDXL

Разбор искусственного интеллекта: Сравнение лучших инструментов MidJourney, Stable Diffusion v1.5 и SDXL

by Tim

Эра искусства, создаваемого искусственным интеллектом, идет полным ходом, и три титана стали любимыми инструментами цифровых творцов: Новый SDXL от Stability AI, старый добрый Stable Diffusion v1.5 и их главный конкурент: MidJourney.

Революцию начал Dall-E от OpenAI, но из-за недостаточного развития и закрытого исходного кода Dall-E 2 не выделяется ни в одной категории на фоне конкурентов. Однако, как сообщил несколько дней назад TCN, в будущем ситуация может измениться, поскольку openAI тестирует новую версию Dall-E, которая, как сообщается, обладает достаточной компетенцией и позволяет создавать выдающиеся произведения.

Выбор правильного инструмента среди ведущих платформ, обладающих уникальными достоинствами и ограничениями, является ключевым моментом. Давайте рассмотрим, как эти технологии генеративного искусства соотносятся между собой с точки зрения возможностей, требований, стиля и красоты.

MidJourney: лекарство для искусственного интеллекта

Пространственный театр

Будучи наиболее удобной в использовании, MidJourney делает искусство искусственного интеллекта доступным даже для нетехнических пользователей — при условии, что они знакомы с Discord. Платформа работает в частном порядке на серверах MidJourney, а взаимодействие пользователей осуществляется через чат Discord. Такой закрытый подход имеет как преимущества, так и недостатки. К плюсам можно отнести отсутствие необходимости в специализированном оборудовании или навыках работы с искусственным интеллектом. Но отсутствие прозрачности модели MidJourney и обучающих данных с открытым исходным кодом ограничивает возможности MidJourney и не позволяет энтузиастам улучшить ее.

MidJourney — это гладкий болтливый чародей, полюбившийся новичкам за удобный интерфейс Discord. Просто отправьте боту текстовый запрос — и вуаля, через несколько минут вы получите эстетический шедевр. Но в чем загвоздка? 96 долл. в год — дороговато за искусственный интеллект, который нельзя настроить или запустить локально. Но, по крайней мере, на вечеринках вы будете выглядеть артистично (и ботанически)!

Функционально MidJourney быстро создает изображения на основе текстовых подсказок и обладает впечатляющей эстетической целостностью. Но стоит углубиться в конкретную тему, и результат становится более странным. MidJourney любит вносить свой собственный штрих в каждое творение, даже если оно не совпадает с тем, что было задумано автором подсказки. Поэтому большинство изображений могут быть насыщенными, с перекачкой контраста и скорее фотореалистичными, чем реалистичными, вплоть до того, что через некоторое время люди начинают определять изображения, созданные с помощью MidJourney, по их эстетическим характеристикам.

Свобода творчества в MidJourney также ограничена жесткими правилами контента платформы. Она подвергается жесткой цензуре, как социальной (в части изображения обнаженной натуры или насилия), так и политической (в части спорных тем и конкретных лидеров). В целом MidJourney предлагает заманчивый путь к искусству ИИ, но опытные пользователи захотят получить больше возможностей для управления и настройки. Именно тогда в игру вступает Stable Diffusion.

Stable Diffusion v1.5: «Старый» надежный искусственный интеллект

Изображение без названия, созданное пользователем ThaiTvNews с использованием пользовательской модели SD v.15.

Изображение без названия, созданное пользователем ThaiTvNews с использованием пользовательской модели SD v.15.


Если MidJourney — это прогулка на пони, то Stable Diffusion v1.5 — надежная рабочая лошадка. Являясь моделью с открытым исходным кодом, активно разрабатываемой уже более года, Stable Diffusion v1.5 обеспечивает работу многих наиболее популярных сегодня инструментов для создания искусственного интеллекта, таких как Leonardo AI, Lexica, Mage Space и все те генераторы искусственных вайфу, которые сегодня доступны в магазине Google Play.

Активное сообщество MidJourney итерировало базовую модель для создания специализированных контрольных точек, вкраплений и LoRA, ориентированных на все: от стилизации под аниме до замысловатых пейзажей, гиперреалистичных фотографий и многого другого. Недостатки? Ну, он начинает показывать свой возраст рядом с более молодыми ИИ.

Если внести некоторые изменения в конструкцию, Stable Diffusion v1.5 сможет генерировать четкие, детализированные изображения в соответствии с вашим творческим видением. В настоящее время выходное разрешение ограничено 512×512 или иногда 768×768, после чего качество ухудшается, но на помощь приходят методы быстрого масштабирования. Популярность плиточного апскейлинга также способствовала росту популярности этой модели, позволяющей генерировать изображения с суперразрешением, намного превосходящим возможности MidJourney.

На данный момент это единственная технология, поддерживающая inpainting (изменение чего-либо внутри изображения). Также поддерживается функция Outpainting — расширение изображения за пределы рамки модели. Она является многонаправленной, то есть пользователь может расширять изображение как по вертикальной, так и по горизонтальной оси. Кроме того, программа поддерживает такие сторонние плагины, как roop (для создания глубоких подделок), After Detailer (для улучшения лица и рук), Open Pose (для имитации определенной позы), а также региональные подсказки.

Для работы с программой создатели рекомендуют использовать графический процессор Nvidia RTX 2000-й серии или более мощный, но легкая версия Stable Diffusion v1.5 прекрасно работает даже на картах с 4 ГБ VRAM. Несмотря на возраст, мощная поддержка со стороны сообщества позволяет этому ИИ-арту оставаться на вершине своей игры.

SDXL: Следующий рубеж искусственного интеллекта

Untitled Image created by user Buzimage using a customized SDXL model

Untitled Image created by user Buzimage using a customized SDXL model


Если Stable Diffusion v1.5 — это надежная рабочая лошадка, то SDXL — молодая чистокровная лошадь, несущаяся по ипподрому. Эта мощная модель, также разработанная компанией Stability AI, использует двойные кодировщики текста для более точной интерпретации подсказок, а двухступенчатый процесс генерации позволяет добиться превосходной когерентности изображения при высоких разрешениях.

Эти возможности звучат захватывающе, но они также делают SDXL немного сложнее в освоении. Одному кодировщику текста нравится короткий естественный язык, а другой использует стиль SD v1.5 — рубленые, специфические ключевые слова для описания композиции.

Двухэтапная генерация означает, что требуется модель уточнителя, чтобы поместить детали в основное изображение. Это требует времени, оперативной памяти и вычислительных мощностей, но результаты получаются великолепными.

SDXL готов вскружить голову. Поддерживая почти в 3 раза больше параметров, чем Stable Diffusion v1.5, SDXL демонстрирует серьезную производительность — он генерирует изображения с разрешением почти на 50% больше, чем его предшественник, и при этом не испытывает недостатка в ресурсах. Но за эту передовую производительность приходится платить: SDXL требует графического процессора с памятью VRAM не менее 6 Гбайт, требует больших файлов моделей и не имеет предварительно обученных специализаций.

Готовые результаты пока не могут сравниться с тонко настроенной моделью Stable Diffusion. Однако по мере того, как сообщество будет работать над оптимизацией, потенциал SDXL перекроет все возможности современных моделей.

Сравнение результатов

Картинка стоит тысячи слов, поэтому мы обобщили несколько тысяч предложений, пытаясь сравнить различные выходы с помощью аналогичных подсказок, чтобы вы могли выбрать наиболее понравившийся. Обратите внимание, что для каждой модели требуется своя техника подсказки, поэтому, даже если это не сравнение, оно является хорошей отправной точкой.

Если быть более точным, то для Stable Diffusion мы использовали довольно обобщенную отрицательную подсказку, в которой MidJourney не нуждается. В остальном подсказки одинаковы, и результаты не подбирались вручную.

  • Задание: Портрет корги, пересекающего море на велосипеде


Комментарий: Здесь просто вопрос стиля между SDXL и MidJourney. Оба они обошли Stable Diffusion v1.5, хотя, похоже, только он способен создать собаку, которая правильно «ездит» на велосипеде или, по крайней мере, правильно его использует.

  • Приглашение: Красная площадь ночью


Комментарий: MidJourney попытался создать красную площадь в The Red Square. SDXL v1.0 более четкий, но контрастность цветов лучше на SD v.15 (модель: Juggernaut v5).

  • Примечание: Грудастая учительница в футуристическом классе


Комментарий: MidJourney отказался генерировать изображение из-за своих цензурных правил. SDXL более богат на детали, позволяющие создать как грудастую учительницу, так и футуристический класс. В SD v1.5 больше внимания уделялось грудастой учительнице (объект. Модель: Photon v1) и меньше — деталям окружения.

  • Приглашение: мозг, питающий машину, Джеффри Смит и Г.Р. Гигер, высокая детализация в 4k, Нисида Шунъэй, постер, инструмент, высокодетализированный эпик, эпический киберпанк, студия Мути, растровая графика, Сугимура Дзихэй


Комментарий: И MidJourney, и SDXL показали результаты, соответствующие заданию. SDXL лучше передал художественный стиль, в то время как MidJourney больше сосредоточился на создании эстетически приятного изображения, а не на воссоздании художественного стиля, но при этом потерял многие детали задания (например, на изображении не мозг питает машину, а череп питает машину).

Будущее генеративного искусства

Какого же Моне следует использовать в обучении? Честно говоря, вы не ошибетесь ни с одним из этих вариантов. MidJourney отличается удобством использования и эстетическим единством. Stable Diffusion v1.5 предлагает возможность настройки и поддержку сообщества. А SDXL расширяет границы фотореалистичной генерации изображений. А пока следите за новостями Dall-E.

Не верьте нам на слово. Кисть уже в ваших руках, и чистый холст ждет вас. Хватайте свой генеративный инструмент и начинайте творить! Только, пожалуйста, сведите к минимуму экзистенциальные угрозы человечеству.

Related Posts

Leave a Comment