Nvidia AI-methode voor beeldpersonalisatie past op een diskette en duurt 4 minuten om te trainen

by Patricia augustus 12, 2023

written by Patricia augustus 12, 2023

In het snel evoluerende landschap van AI-kunstcreatietools hebben onderzoekers van Nvidia een innovatieve nieuwe tekst-naar-beeld personalisatiemethode geïntroduceerd met de naam Perfusion. Maar het is geen miljoenen kostend superzwaargewicht model zoals zijn concurrenten. Met een grootte van slechts 100 KB en een trainingstijd van 4 minuten biedt Perfusion aanzienlijke creatieve flexibiliteit bij het uitbeelden van gepersonaliseerde concepten met behoud van hun identiteit.

Perfusion werd gepresenteerd in een onderzoeksartikel van Nvidia en de Tel-Aviv Universiteit in Israël. Ondanks zijn kleine omvang presteert het beter dan tweakmethodes die worden gebruikt door toonaangevende AI-kunstgeneratoren zoals Stable Diffusion v1.5 van Stability AI, de onlangs uitgebrachte Stable Diffusion XL (SDXL) en MidJourney in termen van efficiëntie van specifieke bewerkingen.

Afbeelding: Nvidia Research

Door de nieuwe kat te koppelen aan de algemene notie van een katachtige, kan het model de kat in veel verschillende houdingen, verschijningen en omgevingen afbeelden. Maar het behoudt nog steeds de essentiële “katheid” waardoor het op de bedoelde kat lijkt en niet op zomaar een willekeurige katachtige.

Dus simpel gezegd laat Key-Locking de AI flexibel gepersonaliseerde concepten uitbeelden met behoud van hun kernidentiteit. Het is alsof je een kunstenaar de volgende aanwijzingen geeft: “Teken mijn kat Tom, terwijl hij slaapt, met garen speelt en bloemen ruikt.”

Waarom Nvidia denkt dat minder meer is

Met Perfusion kunnen ook meerdere gepersonaliseerde concepten worden gecombineerd in één afbeelding met natuurlijke interacties, in tegenstelling tot bestaande tools die concepten geïsoleerd leren. Gebruikers kunnen het creatieproces van de afbeelding begeleiden door middel van tekstaanwijzingen, waarbij concepten zoals een specifieke kat en stoel worden samengevoegd.

Perfusion biedt een opmerkelijke functie waarmee gebruikers de balans tussen visuele getrouwheid (de afbeelding) en tekstuele uitlijning (de prompt) tijdens het inferentieproces kunnen bepalen door een enkel model van 100 KB aan te passen. Met deze mogelijkheid kunnen gebruikers eenvoudig het Pareto-front verkennen (gelijkenis tussen tekst en gelijkenis tussen afbeelding) en de optimale afweging selecteren die past bij hun specifieke behoeften, allemaal zonder dat ze opnieuw hoeven te trainen. Het is belangrijk op te merken dat het trainen van een model enige finesse vereist. Als je je te veel richt op het reproduceren van het model, leidt dat ertoe dat het model steeds weer dezelfde uitvoer produceert en als je het model te nauwgezet de prompt laat volgen zonder enige vrijheid, levert dat meestal een slecht resultaat op. De flexibiliteit om af te stellen hoe dicht de generator bij de prompt komt is een belangrijk stuk maatwerk

Andere AI beeldgeneratoren hebben manieren voor gebruikers om de uitvoer te verfijnen, maar ze zijn omvangrijk. Als referentie is een LoRA een populaire fijnafstemmingsmethode die wordt gebruikt in Stable Diffusion. Het kan tientallen megabytes tot meer dan een gigabyte (GB) aan de app toevoegen. Een andere methode, tekstuele inversie embeddings, is lichter maar minder nauwkeurig. Een model dat is getraind met Dreambooth, de meest nauwkeurige techniek op dit moment, weegt meer dan 2 GB.

Afbeelding: Nvidia Research

Ter vergelijking: volgens Nvidia produceert Perfusion een superieure visuele kwaliteit en afstemming op prompts ten opzichte van de eerder genoemde toonaangevende AI-technieken. Het ultra-efficiënte formaat maakt het mogelijk om alleen de onderdelen bij te werken die het nodig heeft bij het fine-tunen van hoe het een beeld produceert, in vergelijking met de multi-GB footprint van methoden die het hele model fine-tunen.

Dit onderzoek sluit aan bij de groeiende focus van Nvidia op AI. De aandelen van het bedrijf zijn in 2023 met meer dan 230% gestegen, omdat de GPU’s de training van AI-modellen blijven domineren. Nu bedrijven als Anthropic, Google, Microsoft en Baidu miljarden steken in generatieve AI, zou Nvidia’s innovatieve Perfusion-model het bedrijf een voorsprong kunnen geven.

Nvidia heeft voorlopig alleen het onderzoeksrapport gepresenteerd en belooft de code binnenkort vrij te geven.

Nvidia AI-methode voor beeldpersonalisatie past op een diskette en duurt 4 minuten om te trainen

Waarom Nvidia denkt dat minder meer is

LeetSwap DEX onderbreekt handel op Base vanwege potentiële uitbuiting

Meta zet groot in op AI om Facebook en Instagram nieuw leven in te blazen

Related Posts

Leave a Comment Cancel Reply