Home » Методът за персонализиране на изображения с изкуствен интелект на Nvidia се побира във флопидиск и отнема 4 минути за обучение

Методът за персонализиране на изображения с изкуствен интелект на Nvidia се побира във флопидиск и отнема 4 минути за обучение

by Patricia

В бързо развиващия се пейзаж на инструментите за създаване на изкуство с изкуствен интелект изследователите на Nvidia представиха нов иновативен метод за персонализиране на текст в изображения, наречен Perfusion. Но това не е супертежък модел за милиони долари като неговите конкуренти. С размер от едва 100KB и 4-минутно време за обучение Perfusion позволява значителна творческа гъвкавост при изобразяването на персонализирани концепции, като същевременно запазва тяхната идентичност.

Perfusion е представен в изследователски документ, създаден от Nvidia и Университета Тел-Авив в Израел. Въпреки малкия си размер, той е в състояние да надмине по ефективност на специфичните издания методите за настройка, използвани от водещи генератори на изкуство с изкуствен интелект, като Stability AI’s Stable Diffusion v1.5, новоиздадения Stable Diffusion XL (SDXL) и MidJourney.

Изображение: Nvidia Research

Изображение: Nvidia Research


Основната нова идея в Perfusion се нарича „заключване на ключове“. Тя работи чрез свързване на нови концепции, които потребителят иска да добави, като например конкретна котка или стол, с по-обща категория по време на генерирането на изображения. Например котката ще бъде свързана с по-широката идея за „котка“.

Това помага да се избегне прекомерното приспособяване, което се случва, когато моделът се настройва твърде тясно към точните примери за обучение. Прекаленото приспособяване затруднява изкуствения интелект да генерира нови творчески версии на концепцията.

Свързвайки новата котка с общата представа за котка, моделът може да изобрази котката в много различни пози, външност и обстановка. Но тя все още запазва съществената „котешка природа“, която я кара да прилича на предвидената котка, а не просто на произволна котка.

Така че, казано на прост език, заключването с ключове позволява на ИИ гъвкаво да изобразява персонализирани концепции, като същевременно запазва основната им идентичност. Това е като да дадете на художник следните указания: „Нарисувай котарака ми Том, докато спи, играе си с прежда и подсмърча на цветя.“

Защо Nvidia смята, че по-малко е повече

Perfusion също така дава възможност за комбиниране на множество персонализирани концепции в едно изображение с естествени взаимодействия, за разлика от съществуващите инструменти, които изучават концепции поотделно. Потребителите могат да направляват процеса на създаване на изображения чрез текстови подсказки, обединявайки концепции като конкретна котка и стол.

Perfusion предлага забележителна функция, която позволява на потребителите да контролират баланса между визуалната достоверност (изображението) и текстовото подравняване (подкана) по време на извеждането, като регулират един-единствен 100KB модел. Тази възможност позволява на потребителите лесно да изследват фронта на Парето (текстово сходство срещу сходство на изображения) и да изберат оптималния компромис, който отговаря на конкретните им нужди, и всичко това без необходимост от преобучение. Важно е да се отбележи, че обучението на модела изисква известна финес. Прекаленото съсредоточаване върху възпроизвеждането на модела води до това, че моделът произвежда един и същ резултат отново и отново, а това, че го карате да следва подсказката твърде стриктно, без никаква свобода, обикновено води до лош резултат. Гъвкавостта за настройване на това колко близко генераторът се доближава до подсказката е важна част от персонализирането

Други генератори на изображения с изкуствен интелект имат начини за потребителите да настройват точно изхода, но те са обемисти. Като справка, LoRA е популярен метод за фина настройка, използван в стабилната дифузия. Той може да добави от десетки мегабайти до повече от един гигабайт (GB) към приложението. Друг метод, текстови инверсионни вграждания, са по-леки, но по-малко точни. Модел, обучен с помощта на Dreambooth, най-точната техника в момента, тежи повече от 2 GB.

Изображение: Nvidia Research

Изображение: Nvidia Research


За сравнение Nvidia твърди, че Perfusion дава по-добро визуално качество и привеждане в съответствие с подсказките в сравнение с водещите техники на ИИ, споменати преди това. Свръхефективният размер позволява да се актуализират само частите, които са необходими, когато се настройва фино начинът на създаване на изображението, в сравнение с многогигабайтовия отпечатък на методите, които настройват фино целия модел.

Това изследване е в унисон с нарастващия фокус на Nvidia върху изкуствения интелект. Акциите на компанията са нараснали с над 230% през 2023 г., тъй като нейните графични процесори продължават да доминират в обучението на модели на ИИ. Тъй като структури като Anthropic, Google, Microsoft и Baidu влагат милиарди в генеративен ИИ, иновативният модел Perfusion на Nvidia може да ѝ даде предимство.

Засега Nvidia е представила само изследователския документ, като обещава скоро да публикува кода.

Related Posts

Leave a Comment