Metoda personalizace obrazu s umělou inteligencí společnosti Nvidia se vejde na disketu a její trénink trvá 4 minuty

V rychle se rozvíjejícím prostředí nástrojů pro tvorbu umělé inteligence představili výzkumníci společnosti Nvidia novou inovativní metodu personalizace textu do obrazu s názvem Perfusion. Nejde však o supertěžký model za milion dolarů jako u konkurence. S velikostí pouhých 100 kB a čtyřminutovým tréninkem umožňuje Perfusion značnou tvůrčí flexibilitu při zobrazování personalizovaných konceptů při zachování jejich identity.

Perfusion byl představen ve výzkumné práci vytvořené společností Nvidia a univerzitou Tel-Aviv v Izraeli. Navzdory své malé velikosti dokáže z hlediska efektivity konkrétních úprav překonat metody ladění používané předními generátory umělé inteligence, jako je Stable Diffusion v1.5 od Stability AI, nově vydaný Stable Diffusion XL (SDXL) a MidJourney.

Obrázek: Nvidia Research

Hlavní nová myšlenka v Perfusion se nazývá „Key-Locking“. Funguje tak, že nové pojmy, které chce uživatel přidat, například konkrétní kočku nebo židli, při generování obrázku spojí s obecnější kategorií. Například kočka by byla propojena s širším pojmem „kočka“.

To pomáhá vyhnout se overfittingu, což je situace, kdy se model příliš úzce přizpůsobí přesným trénovacím příkladům. Přílišné přizpůsobení ztěžuje umělé inteligenci generování nových kreativních verzí konceptu.

Díky vazbě nové kočky na obecný pojem kočky může model zobrazit kočku v mnoha různých pózách, podobách a prostředích. Stále si však zachovává základní „kočičí“ charakter, díky němuž vypadá jako zamýšlená kočka, a ne jen jako náhodná kočka.

Zjednodušeně řečeno tedy funkce Key-Locking umožňuje umělé inteligenci flexibilně zobrazovat personalizované koncepty při zachování jejich základní identity. Je to jako dát umělci následující pokyny:

: „Nakreslete mého kocoura Toma, jak spí, hraje si s přízí a čichá ke květinám“.

Proč si společnost Nvidia myslí, že méně znamená více

Perfusion také umožňuje kombinovat více personalizovaných konceptů v jednom obrázku s přirozenými interakcemi, na rozdíl od stávajících nástrojů, které se učí koncepty izolovaně. Uživatelé mohou proces tvorby obrázku řídit pomocí textových výzev a sloučit tak pojmy, jako je konkrétní kočka a židle.

Perfusion nabízí pozoruhodnou funkci, která umožňuje uživatelům kontrolovat rovnováhu mezi vizuální věrností (obrázek) a textovým sladěním (výzva) během odvozování nastavením jediného 100KB modelu. Tato schopnost umožňuje uživatelům snadno prozkoumat Paretovu frontu (podobnost textu vs. podobnost obrazu) a vybrat optimální kompromis, který vyhovuje jejich konkrétním potřebám, a to vše bez nutnosti přeškolování. Je důležité si uvědomit, že trénování modelu vyžaduje určitou jemnost. Přílišné zaměření na reprodukci modelu vede k tomu, že model produkuje stále stejný výstup, a přílišné nucení modelu sledovat výzvu bez volnosti obvykle vede ke špatnému výsledku. Důležitým prvkem přizpůsobení je možnost flexibilně vyladit, jak blízko se generátor dostane k výzvě.

Jiné generátory obrázků s umělou inteligencí mají způsoby, jak uživatelé mohou jemně vyladit výstup, ale jsou objemné. Jako referenci lze uvést LoRA, což je oblíbená metoda jemného doladění používaná v programu Stable Diffusion. Může aplikaci přidat od desítek megabajtů až po více než jeden gigabajt (GB). Další metoda, textové inverzní vložení, je lehčí, ale méně přesná. Model natrénovaný pomocí Dreambooth, což je v současnosti nejpřesnější technika, váží více než 2 GB.

Obrázek: Nvidia Research

V porovnání s dříve zmíněnými předními technikami umělé inteligence poskytuje Perfusion podle společnosti Nvidia lepší vizuální kvalitu a sladění s podněty. Díky mimořádně úsporné velikosti umožňuje při jemném dolaďování způsobu tvorby obrazu aktualizovat pouze ty části, které potřebuje, ve srovnání s mnohagigabajtovými nároky metod, které dolaďují celý model.

Tento výzkum je v souladu s rostoucím zaměřením společnosti Nvidia na umělou inteligenci. Akcie společnosti vzrostly v roce 2023 o více než 230 %, protože její GPU nadále dominují při trénování modelů AI. Vzhledem k tomu, že subjekty jako Anthropic, Google, Microsoft a Baidu lijí miliardy do generativní AI, inovativní model Perfusion společnosti Nvidia by jí mohl poskytnout náskok.

Společnost Nvidia zatím představila pouze výzkumný dokument a slíbila, že kód brzy zveřejní.

Metoda personalizace obrazu s umělou inteligencí společnosti Nvidia se vejde na disketu a její trénink trvá 4 minuty

Proč si společnost Nvidia myslí, že méně znamená více

LeetSwap DEX pozastavuje obchodování na základně kvůli potenciálnímu zneužití

Meta sází na umělou inteligenci, aby oživila Facebook a Instagram

Related Posts

Leave a Comment Cancel Reply