Home » AI Art Showdown: Как се представят най-добрите инструменти MidJourney, Stable Diffusion v1.5 и SDXL

AI Art Showdown: Как се представят най-добрите инструменти MidJourney, Stable Diffusion v1.5 и SDXL

by Tim

Ерата на изкуството, генерирано от изкуствен интелект, е в разгара си и трима титани се превърнаха в любими инструменти за дигиталните творци: Новият SDXL на Stability AI, добрият стар Stable Diffusion v1.5 и основният им конкурент: MidJourney.

Dall-E на OpenAI даде началото на тази революция, но липсата на разработка и фактът, че е със затворен код, означават, че Dall-E 2 не се отличава в нито една категория спрямо конкурентите си. Въпреки това, както TCN съобщи преди няколко дни, това може да се промени в бъдеще, тъй като OpenAI тества нова версия на Dall-E, за която се съобщава, че е компетентна и произвежда изключителни произведения.

С уникални силни страни и ограничения, изборът на правилния инструмент измежду водещите платформи е от ключово значение. Нека се потопим в това как тези технологии за генеративно изкуство се представят по отношение на възможностите, изискванията, стила и красотата.

MidJourney: наркотикът за изкуство с изкуствен интелект

Théâtre d'Opéra Spatial, изображение от Midjourney, спечелило първа награда в конкурс за дигитално изкуство

Théâtre d’Opéra Spatial, изображение от Midjourney, спечелило първа награда в конкурс за дигитално изкуство


Като най-удобен за ползване от триото, MidJourney прави изкуството на изкуствения интелект достъпно дори за нетехнически потребители – при условие, че са запознати с Discord. Платформата работи частно на сървърите на MidJourney, като потребителите си взаимодействат чрез чата на Discord. Този затворен подход има както предимства, така и недостатъци. Плюсът е, че не се нуждаете от специализиран хардуер или умения за работа с изкуствен интелект. Но липсата на прозрачност на отворения код около модела и данните за обучение на MidJourney го прави доста ограничен по отношение на това, което можете да правите – и прави невъзможно за ентусиастите да го подобрят.

MidJourney е гладко говорещият чаровник от групата, обичан от начинаещите заради удобния си интерфейс Discord. Просто изстреляйте на бота текстова подкана и воала, за минути имате естетически шедьовър. Уловката? 96 долара годишно – скъпо за изкуствен интелект, който не можете да персонализирате или да управлявате локално. Но хей, поне ще изглеждате артистично (и ботанически) на партита!

От функционална гледна точка MidJourney бързо създава изображения въз основа на текстови подсказки с впечатляваща естетическа съгласуваност. Но ако се задълбочите в конкретна тема, резултатите стават по-необичайни. MidJourney обича да внася своя собствена нотка във всяко едно творение, дори и да не е това, което подсказвачът си е представял. Така че повечето от изображенията могат да бъдат наситени с помпане на контраста и са склонни да бъдат по-скоро фотореалистични, отколкото реалистични, до такава степен, че след известно време хората започват да разпознават снимките, създадени с MidJourney, въз основа на естетическите им характеристики.

При MidJourney творческата ви свобода е ограничена и от строгите правила за съдържание на платформата. Тя е агресивно цензурирана, както в социален (по отношение на изобразяването на голота или насилие), така и в политически план (по отношение на спорни теми и конкретни лидери). Като цяло MidJourney предлага примамлива врата към изкуството на изкуствения интелект – но опитните потребители ще жадуват за повече контрол и възможности за персонализиране. Точно тогава в играта влиза стабилната дифузия.

Стабилна дифузия v1.5: „старата надеждна“ на изкуството на изкуствения интелект

Неозаглавено изображение, създадено от потребителя ThaiTvNews с помощта на персонализиран модел SD v.15.

Неозаглавено изображение, създадено от потребителя ThaiTvNews с помощта на персонализиран модел SD v.15.


Ако MidJourney е разходка с пони, то Stable Diffusion v1.5 е надеждният работен кон. Като модел с отворен код, който е в процес на активна разработка повече от година, Stable Diffusion v1.5 захранва много от най-популярните днес инструменти за изкуство на изкуствен интелект като Leonardo AI, Lexica, Mage Space и всички онези генератори на AI waifu, които вече са налични в магазина на Google Play.

Активната общност на MidJourney итерира базовия модел, за да създаде специализирани контролни точки, вграждания и LoRA, фокусирани върху всичко – от аниме стилизация до сложни пейзажи, хиперреалистични фотографии и др. Недостатъци? Ами, тя започва да показва възрастта си в сравнение с по-младите ИИ вихрушки.

Като направи някои настройки под капака, Stable Diffusion v1.5 може да генерира ясни, детайлни изображения, съобразени с творческата ви визия. Изходната разделителна способност понастоящем е ограничена до 512×512 или понякога 768×768, преди качеството да се влоши, но техниките за бързо мащабиране помагат. Популярността на плочковото мащабиране също повиши популярността на модела, благодарение на което той може да генерира изображения със супер резолюция, далеч надхвърляща възможностите на MidJourney.

В момента това е единствената технология, която поддържа inpainting (промяна на неща вътре в изображението). Поддържа се и изрисуване, което позволява на модела да разшири изображението отвъд рамката му. Тя е многопосочна, което означава, че потребителите могат да разширяват изображението си както по вертикална, така и по хоризонтална ос. Поддържа и приставки на трети страни като roop (използва се за създаване на дълбоки фалшификати), After Detailer (за подобряване на лицата и ръцете), Open Pose (за имитиране на определена поза) и регионални подсказки.

За да я стартирате, създателите предполагат, че за прилична производителност ще ви е необходим графичен процесор от серията Nvidia RTX 2000 или по-добър, но леката следа на Stable Diffusion v1.5 работи безпроблемно дори на карти с 4 GB VRAM. Въпреки възрастта си, солидната подкрепа на общността поддържа този изкуство на изкуствения интелект на върха на своята игра.

SDXL: Следващата граница на изкуството с изкуствен интелект

Untitled Image created by user Buzimage using a customized SDXL model

Untitled Image created by user Buzimage using a customized SDXL model


Ако Stable Diffusion v1.5 е надеждният работен кон, то SDXL е младата чистокръвна порода, която се носи по пистата. Този мощен модел, също от Stability AI, използва двойни текстови енкодери за по-добро тълкуване на подсказките, а двустепенният му процес на генериране постига превъзходна съгласуваност на изображенията при високи резолюции.

Тези възможности звучат вълнуващо, но те също така правят SDXL малко по-труден за овладяване. Единият текстови енкодер харесва краткия естествен език, а другият използва стила на SD v1.5 за накъсани, специфични ключови думи, за да опише композицията.

Двуетапното генериране означава, че е необходим модел за уточняване, за да се поставят детайлите в основното изображение. Това отнема време, оперативна памет и изчислителна мощ, но резултатите са великолепни.

SDXL е готов да завърти глави. Поддържайки почти 3 пъти повече параметри от Stable Diffusion v1.5, SDXL разгръща сериозни мускули – генерира изображения с почти 50 % по-голяма разделителна способност в сравнение с предшественика си, без да се поти. Но тази авангардна производителност има своята цена: SDXL изисква графичен процесор с минимум 6 GB VRAM, изисква по-големи файлове с модели и няма предварително обучени специализации.

Изходът от кутията все още не е на нивото на фино настроения модел на стабилна дифузия. Въпреки това, тъй като общността работи върху магията на оптимизацията, потенциалът на SDXL издухва вратите на това, което е възможно с днешните модели.

Сравнения на резултатите

Снимката струва хиляда думи, затова обобщихме няколко хиляди изречения, опитвайки се да сравним различни изходи, използвайки подобни подсказки, така че да можете да изберете тази, която ви харесва най-много. Моля, имайте предвид, че всеки модел изисква различна техника на подсказване, така че дори и да не е ябълково сравнение, то е добра отправна точка.

За да бъда по-конкретен, използвахме доста обобщена отрицателна подкана за стабилна дифузия, нещо, от което MidJourney всъщност не се нуждае. Освен това подсказките са еднакви и резултатите не са подбрани на ръка.

  • Проблем: Портрет на корги, което кара колело и пресича морето


Коментар: Тук е само въпрос на стил между SDXL и MidJourney. И двете побеждават Stable Diffusion v1.5, въпреки че изглежда, че само тя е в състояние да създаде куче, което правилно „кара“ велосипеда или поне го използва правилно.

  • Промп: Червеният площад през нощта


Коментар: MidJourney се опита да създаде червен квадрат в Червения площад. SDXL v1.0 е по-ясен, но контрастът на цветовете е по-добър на SD v.15 (Модел: Juggernaut v5).

  • Промп: Бюст на учителка във футуристична класна стая


Коментар: MidJourney отказва да генерира изображение поради своите правила за цензура. SDXL е по-богат на детайли, грижейки се да произведе както бюстната учителка, така и футуристичната класна стая. SD v1.5 се фокусира повече върху бюстната учителка (обекта. Модел: Photon v1) и по-малко в детайлите на средата.

  • Проект: мозък, захранващ машина, Джефри Смит и Х.Р. Гигер, с висока детайлност в 4k, от Нишида Шун’ей, плакат, инструмент, с висока детайлност, епичен, епичен киберпънк, студио Мути, растерна карта, от Сугимура Джихей


Коментар: Както MidJourney, така и SDXL дават резултати, които се придържат към подсказката. SDXL възпроизведе по-добре художествения стил, докато MidJourney се съсредоточи повече върху създаването на естетически приятно изображение, вместо да пресъздаде художествения стил, но също така загуби много детайли от подсказката (например: изображението не показва мозък, който захранва машина, а вместо това е череп, който захранва машина).

Бъдещето на генеративното изкуство

Кой Моне в обучението трябва да използвате? Честно казано, не можете да сбъркате с нито един от тези варианти. MidJourney се отличава с удобство при използване и естетическа съгласуваност. Stable Diffusion v1.5 предлага възможност за персонализиране и поддръжка от общността. А SDXL разширява границите на фотореалистичното генериране на изображения. Междувременно останете на линия, за да видите какво предстои да се появи в Dall-E.

Не вярвайте само на думите ни. Четката за рисуване вече е в ръцете ви, а празното платно ви очаква. Вземете избрания от вас генеративен инструмент и започнете да творите! Само може би сведете екзистенциалните заплахи за човечеството до минимум, моля.

Related Posts

Leave a Comment