Metoda personalizacji obrazów Nvidia AI mieści się na dyskietce, a trening trwa 4 minuty

W szybko ewoluującym krajobrazie narzędzi do tworzenia sztuki AI, badacze Nvidii wprowadzili nową innowacyjną metodę personalizacji tekstu na obraz o nazwie Perfusion. Nie jest to jednak super ciężki model za milion dolarów, jak jego konkurenci. Dzięki rozmiarowi zaledwie 100 KB i 4-minutowemu czasowi szkolenia, Perfusion zapewnia znaczną kreatywną elastyczność w przedstawianiu spersonalizowanych koncepcji przy jednoczesnym zachowaniu ich tożsamości.

Perfusion został zaprezentowany w artykule badawczym stworzonym przez Nvidię i Uniwersytet Tel-Aviv w Izraelu. Pomimo niewielkich rozmiarów, jest w stanie przewyższyć metody tweakingu stosowane przez wiodące generatory sztuki AI, takie jak Stability AI’s Stable Diffusion v1.5, nowo wydany Stable Diffusion XL (SDXL) i MidJourney pod względem wydajności konkretnych edycji.

Image: Nvidia Research

Głównym nowym pomysłem w Perfusion jest „Key-Locking”. Działa to poprzez łączenie nowych pojęć, które użytkownik chce dodać, takich jak konkretny kot lub krzesło, z bardziej ogólną kategorią podczas generowania obrazu. Na przykład, kot byłby powiązany z szerszym pojęciem „kota”.

Pomaga to uniknąć nadmiernego dopasowania, które ma miejsce, gdy model jest zbyt wąsko dostrojony do dokładnych przykładów szkoleniowych. Nadmierne dopasowanie utrudnia sztucznej inteligencji generowanie nowych kreatywnych wersji koncepcji.

Wiążąc nowego kota z ogólnym pojęciem kota, model może przedstawiać kota w wielu różnych pozach, wyglądach i otoczeniu. Ale nadal zachowuje zasadniczą „kociość”, która sprawia, że wygląda jak zamierzony kot, a nie jak jakikolwiek przypadkowy kot.

Mówiąc prościej, Key-Locking pozwala sztucznej inteligencji elastycznie przedstawiać spersonalizowane koncepcje, zachowując jednocześnie ich podstawową tożsamość. To tak, jakby dać artyście następujące wskazówki: „Narysuj mojego kota Toma, gdy śpi, bawi się włóczką i wącha kwiaty.”

Dlaczego Nvidia uważa, że mniej znaczy więcej

Perfusion umożliwia również łączenie wielu spersonalizowanych koncepcji w jednym obrazie z naturalnymi interakcjami, w przeciwieństwie do istniejących narzędzi, które uczą się koncepcji w izolacji. Użytkownicy mogą kierować procesem tworzenia obrazu za pomocą podpowiedzi tekstowych, łącząc pojęcia, takie jak konkretny kot i krzesło.

Perfusion oferuje niezwykłą funkcję, która pozwala użytkownikom kontrolować równowagę między wiernością wizualną (obraz) a wyrównaniem tekstowym (podpowiedź) podczas wnioskowania poprzez dostosowanie pojedynczego modelu o rozmiarze 100 KB. Możliwość ta pozwala użytkownikom na łatwe zbadanie frontu Pareto (podobieństwo tekstu do podobieństwa obrazu) i wybranie optymalnego kompromisu, który odpowiada ich konkretnym potrzebom, a wszystko to bez konieczności ponownego szkolenia. Należy zauważyć, że szkolenie modelu wymaga pewnej finezji. Zbytnie skupienie się na odtwarzaniu modelu prowadzi do tego, że model generuje te same dane wyjściowe w kółko, a zbyt ścisłe podążanie za podpowiedzią bez żadnej swobody zwykle daje zły wynik. Elastyczność w dostosowywaniu tego, jak blisko generator podąża za podpowiedzią, jest ważnym elementem personalizacji

Inne generatory obrazów AI umożliwiają użytkownikom precyzyjne dostrojenie wyników, ale są nieporęczne. Jako odniesienie, LoRA jest popularną metodą dostrajania używaną w Stable Diffusion. Może ona dodać do aplikacji od kilkudziesięciu megabajtów do ponad jednego gigabajta (GB). Inna metoda, osadzanie inwersji tekstowej, jest lżejsza, ale mniej dokładna. Model wytrenowany przy użyciu Dreambooth, najdokładniejszej obecnie techniki, waży ponad 2 GB.

Image: Nvidia Research

W porównaniu, Nvidia twierdzi, że Perfusion zapewnia doskonałą jakość wizualną i dostosowanie do podpowiedzi w porównaniu z wiodącymi technikami sztucznej inteligencji wspomnianymi wcześniej. Ultra-wydajny rozmiar umożliwia aktualizację tylko tych części, których potrzebuje, gdy dostraja sposób generowania obrazu, w porównaniu do wielogigabajtowych metod, które dostrajają cały model.

Badania te wpisują się w rosnący nacisk Nvidii na sztuczną inteligencję. Akcje firmy wzrosły o ponad 230% w 2023 r., ponieważ jej procesory graficzne nadal dominują w szkoleniu modeli sztucznej inteligencji. Biorąc pod uwagę, że podmioty takie jak Anthropic, Google, Microsoft i Baidu przeznaczają miliardy na generatywną sztuczną inteligencję, innowacyjny model Perfusion firmy Nvidia może dać jej przewagę.

Nvidia zaprezentowała na razie jedynie artykuł badawczy, obiecując, że wkrótce udostępni kod.

Metoda personalizacji obrazów Nvidia AI mieści się na dyskietce, a trening trwa 4 minuty

Dlaczego Nvidia uważa, że mniej znaczy więcej

LeetSwap DEX wstrzymuje handel na Base z powodu potencjalnego exploita

Meta stawia na sztuczną inteligencję, by ożywić Facebooka i Instagrama

Related Posts

Leave a Comment Cancel Reply