Home » Новият генератор на AI изображения прави повече от SDXL с по-малко

Новият генератор на AI изображения прави повече от SDXL с по-малко

by Thomas

Stability AI, компанията, която стои зад изключително популярния генератор на изображения Stable Diffusion, току-що хвърли още една граната в горещата конкурентна арена на изкуствения интелект.

Чисто новият Stable Cascade на Stability, задвижван от новата архитектура с отворен код Würstchen, осигурява високоефективен и модулен подход към генерирането на текст в изображения, като балансира между качество, скорост и адаптивност.

Моделът постига коефициент на компресия, който не може да се сравни с нищо, наблюдавано досега в традиционните модели на Stable Diffusion, твърдят от компанията, и е способен да произвежда резултати с по-голяма резолюция и детайли – сравними със съвременни генератори като SDXL или MidJourney (които обикновено работят с резолюции 1024×1024).

Изображение: Stability AI

Изображение: Stability AI

Съставките на „Würstchen „

Стабилната каскада възприема триетапен процес, за разлика от традиционния тръбопровод за стабилна дифузия:

  • Етап А: Компресор на изображения: За разлика от типичните модели, този начален етап обработва изображенията като усъвършенствани пъзели. С помощта на векторно-квантифицирана генеративна адверсационна мрежа (VQGAN) изображението се нарязва на компактни части с размери 256×256. Всяка секция получава дискретен „символ“ от специализирана кодова книга. Тази стъпка проправя пътя за светкавична обработка в следващите етапи.
  • Етап Б: Възстановяване (модел на скрита дифузия) Този етап се занимава с работата по възстановяване на изображението след компресията. Представете си я като опитен строителен реставратор, който използва подробни инструкции и чертежи за работата си.
  • Етап В: Генератор на латентни данни, основани на текстови инструкции Етап В се фокусира единствено върху обработката на текстови инструкции и производството на компресирани латентни данни. Този отделен от текста подход за генериране драстично намалява сложността и разходите за фина настройка за конкретни случаи на употреба.
Изображение: Stability AI

Изображение: Stability AI


С други думи, той прави това, което подсказва името му. Започва с генератор, управляван от текст, който бълва малки снимки на изображения, които се раздуват до по-подробни, след което се представят правилно на очите ви като висококачествено изображение с пълна резолюция.

Модулни предимства

Модулният дизайн на Stable Cascade носи няколко неоспорими предимства, според разработчиците му. На първо място е изключителната ефективност: благодарение на компресираното латентно пространство (начинът, по който изкуственият интелект оценява композицията на изображението, за разлика от пикселното пространство, което виждат хората) и фокусирания модел Stage C, Stable Cascade постига по-бързо време за извод, което означава, че изчислява прогнозите си по-бързо. И го прави със значително намалени хардуерни изисквания в сравнение с по-големите модели на Стабилна дифузия като SDXL.

Вътрешните тестове на Stability AI показаха способността на Stable Cascade постоянно да превъзхожда сравними модели като SDXL както по отношение на качеството на изображението, така и по отношение на естетическата привлекателност. Освен това моделът постига тези резултати при много високи скорости, като същевременно изисква значително по-малко изчислителни ресурси.

Изображение: Стабилност на AI

Изображение: Стабилност на AI


Другото предимство, за което претендира Stability AI, е неговата гъвкавост. Много от инструментите, които художниците на Stability Diffusion сега използват за усъвършенстване на работата си – като ControlNets или LoRas – са съвместими. А поради изключителната си ефективност потребителите могат да добавят повече от тези инструменти в работните си процеси, без да сриват паметта си.

Олекотената архитектура на модела, по-малкият отпечатък на модела и съвместимостта с по-малко мощен компютърен хардуер намаляват бариерата за навлизане, като увеличават достъпността на усъвършенстваните техники за генериране на текст в изображение както за обикновени потребители, така и за изследователи.

Да правим повече с по-малко


Нашите тестове установиха, че моделът е точен и детайлен и не показва размитата, гумена естетика на предишните модели SDXL turbo или LCM на Stability AI. Вместо това той генерира много подробни изображения, които са на нивото на фино настроените модели SDXL.

Той има и някои основни възможности за генериране на текст, които могат да бъдат допълнително подобрени с LoRA, които вече са налични в онлайн хранилища като Civitai.

Stability AI съобщава, че въпреки че разполага с повече параметри от Stable Diffusion XL, Stable Cascade все още се радва на по-бързо време за извод и превъзхожда при бързо подравняване.

Прецизната настройка на Stable Cascade също така е по-малко ресурсоемка в сравнение с моделите Stable Diffusion с подобен размер. Изследователите и ентусиастите могат потенциално да обучават модела върху по-малки набори от данни и със значително по-малка изчислителна мощност, което го прави много рентабилен.

Stable Cascade е пуснат под некомерсиален лиценз за научни изследвания и е лесно достъпен в хранилището GitHub на Stability AI с вече наличен поддържан от общността работен процес ComfyUI, който автоматично изтегля моделите за по-лесно използване.

Related Posts

Leave a Comment