Home » Метод персонализации изображений с помощью искусственного интеллекта Nvidia помещается на дискету и обучается за 4 минуты

Метод персонализации изображений с помощью искусственного интеллекта Nvidia помещается на дискету и обучается за 4 минуты

by Tim

В стремительно развивающемся ландшафте инструментов для создания искусственного интеллекта исследователи компании Nvidia представили новый инновационный метод персонализации текста в изображение под названием Perfusion. Но это не супертяжелая модель за миллион долларов, как у конкурентов. Имея размер всего 100 КБ и время обучения 4 минуты, Perfusion обеспечивает значительную творческую гибкость при изображении персонализированных концепций с сохранением их идентичности.

Perfusion была представлена в исследовательской работе, созданной компанией Nvidia и Тель-Авивским университетом в Израиле. Несмотря на малый размер, по эффективности подстройки она превосходит методы, используемые ведущими генераторами искусственного интеллекта, такими как Stability AI’s Stable Diffusion v1.5, недавно выпущенный Stable Diffusion XL (SDXL) и MidJourney.

Image: Nvidia Research

Image: Nvidia Research


Главная новая идея в Perfusion называется «Key-Locking». Она работает путем соединения новых понятий, которые пользователь хочет добавить, например, конкретной кошки или стула, с более общей категорией во время генерации изображения. Например, кошка будет связана с более общим понятием «кошка».

Это помогает избежать чрезмерной подгонки, когда модель слишком узко настраивается на конкретные обучающие примеры. В результате чрезмерной подгонки ИИ становится трудно генерировать новые творческие версии концепции.

Привязав новую кошку к общему понятию кошки, модель может изображать ее в различных позах, облике и окружении. Но при этом сохраняется та самая «кошачесть», которая делает ее похожей на ту самую кошку, а не на какую-то случайную зверушку.

Проще говоря, Key-Locking позволяет ИИ гибко изображать персонализированные концепции, сохраняя при этом их основную идентичность. Это все равно что дать художнику следующие указания: «Нарисуйте моего кота Тома, который спит, играет с пряжей и нюхает цветы»

Почему Nvidia считает, что меньше — это больше

Perfusion также позволяет объединить несколько персонализированных концепций в одном изображении с помощью естественных взаимодействий, в отличие от существующих инструментов, которые изучают концепции по отдельности. Пользователи могут направлять процесс создания изображения с помощью текстовых подсказок, объединяя такие понятия, как конкретная кошка и стул.

Perfusion предлагает замечательную функцию, позволяющую пользователям контролировать баланс между визуальной достоверностью (изображение) и текстовым согласованием (подсказка) в процессе вывода путем настройки одной модели размером 100 КБ. Эта возможность позволяет пользователям легко исследовать фронт Парето (сходство текста и сходство изображения) и выбирать оптимальный компромисс, соответствующий их конкретным потребностям, без необходимости переобучения. Важно отметить, что обучение модели требует определенной тонкости. Слишком большое внимание к воспроизведению модели приводит к тому, что она снова и снова выдает один и тот же результат, а слишком точное следование подсказке без какой-либо свободы обычно приводит к плохому результату. Гибкая настройка того, насколько близко генератор подходит к подсказке, является важным элементом настройки.

В других генераторах изображений ИИ есть возможность тонкой настройки вывода, но они громоздки. В качестве примера можно привести LoRA — популярный метод тонкой настройки, используемый в Stable Diffusion. Он может добавить к приложению от десятков мегабайт до более чем одного гигабайта (ГБ). Другой метод — инверсионные вкрапления текста — более легкий, но менее точный. Модель, обученная с помощью Dreambooth, наиболее точной на данный момент, весит более 2 Гбайт.

Image: Nvidia Research

Image: Nvidia Research


По словам представителей Nvidia, Perfusion обеспечивает более высокое визуальное качество и соответствие подсказкам по сравнению с ведущими технологиями искусственного интеллекта, о которых говорилось выше. Сверхэффективный размер позволяет обновлять только те части, которые необходимы для точной настройки процесса создания изображения, по сравнению с методами, занимающими много гигабайт, которые настраивают всю модель.

Это исследование согласуется с растущим вниманием Nvidia к искусственному интеллекту. Акции компании выросли более чем на 230% в 2023 году, поскольку ее графические процессоры продолжают доминировать в обучении моделей ИИ. В условиях, когда такие компании, как Anthropic, Google, Microsoft и Baidu, вкладывают миллиарды в генеративный ИИ, инновационная модель Perfusion компании Nvidia может дать ей преимущество.

Пока Nvidia представила только исследовательскую работу, пообещав в скором времени выпустить код.

Related Posts

Leave a Comment