Технологии создания изображений с помощью искусственного интеллекта (ИИ) стремительно развиваются — и не только в этом смысле. Последние достижения привели к тому, что отрасль перешла от стабильного прогресса к неумолимому прорыву и теперь обещает появление высокоточного создания изображений в режиме реального времени.
Не то чтобы эти инструменты работали медленно — одна минута не является слишком долгим ожиданием, чтобы «сделать больше». Но пользователи по-прежнему требуют большего: большего реализма, большей универсальности, большего разнообразия и большей скорости. И по последнему пункту исследователи с радостью предоставляют свои услуги.
SDXL нажимает на педаль газа
Stability AI представила SDXL Turbo, который может стать монументальным скачком в создании изображений с помощью ИИ. Мы не говорим это легкомысленно: недавно анонсированная модель может генерировать изображения за одну секунду вместо 30-60 секунд, которые требуются обычным генераторам. Это почти, если не фактически, генерация изображений ИИ в режиме реального времени.
SDXL Turbo отличается от всех предыдущих моделей стабильной диффузии. Технология Adversarial Diffusion Distillation (ADD) позволяет значительно сократить количество шагов, необходимых для генерации высококачественных изображений — всего один шаг, в то время как обычные изображения могут занимать от 30 до 100 шагов. «ADD — это первый метод, позволяющий синтезировать изображения в один шаг в режиме реального времени с использованием моделей фундамента», — утверждает Stability AI в своем исследовании.
Представляем SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.
SDXL Turbo достигает высочайшей производительности благодаря новой технологии дистилляции, позволяющей создавать одношаговые изображения с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.
The… pic.twitter.com/0NA4aUqKkD
— Stability AI (@StabilityAI) November 28, 2023
SDXL Turbo использует гибрид состязательного обучения и дистилляции баллов, оптимизируя генеративный процесс и обеспечивая быстрое получение изображений при сохранении высокой достоверности.
В результате внедрение SDXL Turbo позволяет создавать сложные изображения высокого разрешения практически мгновенно. Этот новый подход также привлекает внимание к GAN, которые были в значительной степени забыты после того, как диффузионная технология стала доминировать на сцене.
Модели латентной согласованности означают эффективность
Однако если вы не хотите прощаться со своими «старыми» моделями стабильной диффузии, у исследователей есть для вас решение.
Наряду с SDXL Turbo появились латентные модели согласованности (LCM) и LCM-LoRA, каждая из которых вносит свой уникальный вклад в эту область.
LCM, представленные в специальной научной статье, отличаются своей способностью генерировать изображения высокого разрешения, эффективно работая в латентном пространстве предварительно обученных автоэнкодеров, таких как Stable Diffusion. LCM нацелены на повышение скорости генерации изображений без существенной потери качества и ориентированы на получение результатов высокого разрешения. Используя одноэтапный метод направленной дистилляции, LCM превращают предварительно обученные диффузионные модели в быстрые генераторы изображений, пропуская ненужные шаги.
С практической точки зрения, пользователям не нужно ничего менять. Достаточно загрузить модель и использовать ее как обычную контрольную точку SDXL. Однако вместо того, чтобы проходить огромное количество шагов, они могут сократить их до минимума. Модель будет выдавать хорошие изображения с четырьмя шагами за пару секунд, вместо того чтобы рассчитывать генерацию на 25, 50 или 75 шагов для каждого изображения.
Уже есть отличные модели с собственными версиями LCM, которые вы можете попробовать. Мы рекомендуем Hephaistos_NextGENXL за его универсальность, но есть много отличных моделей, доступных для тестирования.
Мы выпускаем Pixart-alpha x LCM !⚡️
Счастливы выпустить еще одну совместную работу с командой Pixart-alpha!@lawrence_cjs
смотрите ссылку здесь:https://t.co/9qTYKyiaQk pic.twitter.com/HPUmXYERrk
— Allen (Simian) Luo (@SimianLuo) November 30, 2023
LCM-LoRAS: турбонаддув любой модели
Выпущенный в тандеме с LCM, LCM-LoRA предлагает универсальный модуль ускорения, который может быть интегрирован в различные модели Stable-Diffusion. «LCM-LoRA можно рассматривать как подключаемый нейронный решатель PF-ODE с сильными обобщающими способностями», — говорится в статье.
LCM-LoRA разработан для повышения эффективности существующих моделей стабильной диффузии, делая их более быстрыми и универсальными. Она использует LoRA (Low-Rank Adaptation) для обновления предварительно обученных весовых матриц, снижая вычислительную нагрузку и требования к памяти.
Благодаря LCM-LoRA обычные модели Stable Diffusion значительно увеличивают скорость генерации изображений, что делает их очень эффективными для решения различных задач. Пользователям даже не нужно загружать новую модель — достаточно активировать LCM LoRA и генерировать изображения так же быстро, как в режиме LCM…
Качество против скорости
Несмотря на эти технологические скачки, необходимость в балансе между скоростью и качеством изображения остается. Хотя инструменты быстрой генерации, такие как SDXL Turbo и LCM-LoRA, ускоряют творческий процесс, они делают это за счет некоторой верности изображения. Другими словами, изображение, созданное с помощью 50 шагов и хорошей модели, всегда будет иметь более высокое разрешение или точность изображения, чем изображение, созданное с помощью 5 шагов и хорошей LCM-модели.
Однако этот компромисс сглаживается их полезностью в типичных рабочих процессах, где генерируется множество изображений, чтобы найти идеальное. Последующие итерации с помощью таких инструментов, как image-to-image или inpaint, могут улучшить детали на этих первых изображениях, компенсируя первоначальную потерю качества. Правильно отредактированное изображение, созданное с помощью одной из этих быстрых технологий, может быть таким же хорошим, как и изображение, созданное с помощью обычной модели Stable Diffusion.
Пристегните ремни, потому что пространство ИИ-генерации изображений переходит в режим овердрайва — и мало кто жаждет скорости больше, чем фанбои ИИ.