Новый генератор изображений для ИИ делает больше, чем SDXL, при меньших затратах

Stability AI, компания, стоящая за дико популярным генератором изображений Stable Diffusion, только что бросила еще одну гранату в горячую конкуренцию на арене искусственного интеллекта.

Новый Stable Cascade, основанный на новой архитектуре Würstchen с открытым исходным кодом, обеспечивает высокоэффективный и модульный подход к генерации текста в изображение, балансируя между качеством, скоростью и адаптивностью.

По словам компании, модель достигает коэффициента сжатия, не похожего ни на что, ранее встречавшееся в традиционных моделях Stable Diffusion, и способна выдавать результаты с большим разрешением и детализацией, сравнимые с современными генераторами, такими как SDXL или MidJourney (которые обычно работают с разрешением 1024×1024).

Изображение: Stability AI

Вюрстхен ингредиенты

Стабильный каскад использует трехступенчатый процесс, в отличие от традиционного трубопровода стабильной диффузии:

Стадия A: Компрессор изображений: В отличие от типичных моделей, на этом начальном этапе изображения обрабатываются как сложные пазлы. Используя векторно-квантованную генеративную адверсарную сеть (VQGAN), изображение разбивается на компактные секции размером 256×256. Каждая секция получает дискретный «маркер» из специализированной кодовой книги. Этот шаг открывает путь для молниеносной обработки на последующих этапах.
Этап B: Восстановитель (модель скрытой диффузии) На этом этапе выполняется работа по восстановлению изображения после сжатия. Представьте, что это опытный ремонтник, использующий подробные инструкции и чертежи для своей работы.
Этап C: генератор латентности с текстовыми условиями Этап C сосредоточен исключительно на обработке текстовых инструкций и создании сжатых латентностей. Такой подход к генерации текста значительно снижает сложность и стоимость тонкой настройки для конкретных случаев использования.

Изображение: Stability AI

Иными словами, он делает то, что следует из его названия. Он начинает с текстового генератора, который выдает крошечные снимки изображений, которые раздуваются до более детальных, а затем должным образом представляются вашему взору в виде высококачественного изображения с полным разрешением.

Модульные преимущества

Модульная конструкция Stable Cascade, по мнению разработчиков, дает несколько неоспоримых преимуществ. Во-первых, это чрезвычайная эффективность: благодаря сжатому латентному пространству (то, как ИИ оценивает композицию изображения, в отличие от пространства пикселей, которое видит человек) и сфокусированной модели Stage C, Stable Cascade достигает более быстрого времени вывода, то есть быстрее вычисляет свои предсказания. И это при значительно меньших требованиях к аппаратному обеспечению по сравнению с более крупными моделями Stable Diffusion, такими как SDXL.

Внутренние тесты Stability AI продемонстрировали способность Stable Cascade стабильно превосходить сопоставимые модели вроде SDXL как по качеству изображения, так и по эстетической привлекательности. Кроме того, модель достигает этих результатов на очень высоких скоростях, требуя при этом значительно меньше вычислительных ресурсов.

Изображение: Stability AI

Еще одно преимущество, о котором заявляет Stability AI, — это его универсальность. Многие из инструментов, которые художники Stable Diffusion используют для доработки своих работ, например ControlNets или LoRas, совместимы с ним. А благодаря своей чрезвычайной эффективности пользователи могут добавлять все новые и новые инструменты в свой рабочий процесс без ущерба для памяти.

Облегченная архитектура модели, меньший объем модели и совместимость с менее мощным вычислительным оборудованием снижают барьер для входа, повышая доступность передовых методов генерации текста в изображение как для случайных пользователей, так и для исследователей.

Делаем больше с меньшими затратами

Наши тесты показали, что модель является точной и детализированной и не демонстрирует размытой, резиновой эстетики предыдущих моделей SDXL turbo или LCM от Stability AI. Вместо этого она генерирует высокодетализированные изображения наравне с тонко настроенными моделями SDXL.

Модель также обладает базовыми возможностями генерации текста, которые могут быть расширены с помощью LoRA, уже доступных в таких онлайн-репозиториях, как Civitai.

По данным Stability AI, несмотря на большее количество параметров, чем у Stable Diffusion XL, Stable Cascade отличается более быстрым временем вывода и превосходством в быстром выравнивании.

Тонкая настройка Stable Cascade также менее ресурсоемка по сравнению с аналогичными по размеру моделями Stable Diffusion. Исследователи и энтузиасты могут обучать модель на меньших наборах данных и при значительно меньших вычислительных мощностях, что делает ее очень экономичной.

Stable Cascade выпущена под некоммерческой исследовательской лицензией и легко доступна в репозитории Stability AI на GitHub, где уже имеется поддерживаемый сообществом рабочий процесс ComfyUI, который автоматически загружает модели для большего удобства использования.

Новый генератор изображений для ИИ делает больше, чем SDXL, при меньших затратах

Вюрстхен ингредиенты

Модульные преимущества

Делаем больше с меньшими затратами

Сезон очков: Кто побеждает в войне NFT-маркетов на Ethereum, Solana и Bitcoin?

BlackRock Bitcoin ETF набирает 500 млн долларов, поскольку Уолл-стрит проявляет повышенный интерес к BTC

Related Posts

Leave a Comment Cancel Reply