Stability AI, компания, стоящая за дико популярным генератором изображений Stable Diffusion, только что бросила еще одну гранату в горячую конкуренцию на арене искусственного интеллекта.
Новый Stable Cascade, основанный на новой архитектуре Würstchen с открытым исходным кодом, обеспечивает высокоэффективный и модульный подход к генерации текста в изображение, балансируя между качеством, скоростью и адаптивностью.
По словам компании, модель достигает коэффициента сжатия, не похожего ни на что, ранее встречавшееся в традиционных моделях Stable Diffusion, и способна выдавать результаты с большим разрешением и детализацией, сравнимые с современными генераторами, такими как SDXL или MidJourney (которые обычно работают с разрешением 1024×1024).
Вюрстхен ингредиенты
Стабильный каскад использует трехступенчатый процесс, в отличие от традиционного трубопровода стабильной диффузии:
- Стадия A: Компрессор изображений: В отличие от типичных моделей, на этом начальном этапе изображения обрабатываются как сложные пазлы. Используя векторно-квантованную генеративную адверсарную сеть (VQGAN), изображение разбивается на компактные секции размером 256×256. Каждая секция получает дискретный «маркер» из специализированной кодовой книги. Этот шаг открывает путь для молниеносной обработки на последующих этапах.
- Этап B: Восстановитель (модель скрытой диффузии) На этом этапе выполняется работа по восстановлению изображения после сжатия. Представьте, что это опытный ремонтник, использующий подробные инструкции и чертежи для своей работы.
Этап C: генератор латентности с текстовыми условиями Этап C сосредоточен исключительно на обработке текстовых инструкций и создании сжатых латентностей. Такой подход к генерации текста значительно снижает сложность и стоимость тонкой настройки для конкретных случаев использования.
Иными словами, он делает то, что следует из его названия. Он начинает с текстового генератора, который выдает крошечные снимки изображений, которые раздуваются до более детальных, а затем должным образом представляются вашему взору в виде высококачественного изображения с полным разрешением.
Модульные преимущества
Модульная конструкция Stable Cascade, по мнению разработчиков, дает несколько неоспоримых преимуществ. Во-первых, это чрезвычайная эффективность: благодаря сжатому латентному пространству (то, как ИИ оценивает композицию изображения, в отличие от пространства пикселей, которое видит человек) и сфокусированной модели Stage C, Stable Cascade достигает более быстрого времени вывода, то есть быстрее вычисляет свои предсказания. И это при значительно меньших требованиях к аппаратному обеспечению по сравнению с более крупными моделями Stable Diffusion, такими как SDXL.
Внутренние тесты Stability AI продемонстрировали способность Stable Cascade стабильно превосходить сопоставимые модели вроде SDXL как по качеству изображения, так и по эстетической привлекательности. Кроме того, модель достигает этих результатов на очень высоких скоростях, требуя при этом значительно меньше вычислительных ресурсов.
Еще одно преимущество, о котором заявляет Stability AI, — это его универсальность. Многие из инструментов, которые художники Stable Diffusion используют для доработки своих работ, например ControlNets или LoRas, совместимы с ним. А благодаря своей чрезвычайной эффективности пользователи могут добавлять все новые и новые инструменты в свой рабочий процесс без ущерба для памяти.
Облегченная архитектура модели, меньший объем модели и совместимость с менее мощным вычислительным оборудованием снижают барьер для входа, повышая доступность передовых методов генерации текста в изображение как для случайных пользователей, так и для исследователей.
Делаем больше с меньшими затратами
Наши тесты показали, что модель является точной и детализированной и не демонстрирует размытой, резиновой эстетики предыдущих моделей SDXL turbo или LCM от Stability AI. Вместо этого она генерирует высокодетализированные изображения наравне с тонко настроенными моделями SDXL.
Модель также обладает базовыми возможностями генерации текста, которые могут быть расширены с помощью LoRA, уже доступных в таких онлайн-репозиториях, как Civitai.
По данным Stability AI, несмотря на большее количество параметров, чем у Stable Diffusion XL, Stable Cascade отличается более быстрым временем вывода и превосходством в быстром выравнивании.
Тонкая настройка Stable Cascade также менее ресурсоемка по сравнению с аналогичными по размеру моделями Stable Diffusion. Исследователи и энтузиасты могут обучать модель на меньших наборах данных и при значительно меньших вычислительных мощностях, что делает ее очень экономичной.
Stable Cascade выпущена под некоммерческой исследовательской лицензией и легко доступна в репозитории Stability AI на GitHub, где уже имеется поддерживаемый сообществом рабочий процесс ComfyUI, который автоматически загружает модели для большего удобства использования.