Home » Il metodo di personalizzazione delle immagini AI di Nvidia sta in un floppy disk e richiede 4 minuti di addestramento

Il metodo di personalizzazione delle immagini AI di Nvidia sta in un floppy disk e richiede 4 minuti di addestramento

by Thomas

Nel panorama in rapida evoluzione degli strumenti per la creazione di arte artificiale, i ricercatori di Nvidia hanno introdotto un nuovo metodo innovativo di personalizzazione del testo per le immagini, chiamato Perfusion. Ma non si tratta di un modello super pesante da un milione di dollari come i suoi concorrenti. Con una dimensione di soli 100KB e un tempo di addestramento di 4 minuti, Perfusion consente una notevole flessibilità creativa nel rappresentare concetti personalizzati mantenendo la loro identità.

Perfusion è stato presentato in un documento di ricerca creato da Nvidia e dall’Università di Tel-Aviv in Israele. Nonostante le sue dimensioni ridotte, è in grado di superare i metodi di modifica utilizzati dai principali generatori d’arte AI come Stable Diffusion v1.5 di Stability AI, il nuovo Stable Diffusion XL (SDXL) e MidJourney in termini di efficienza di edizioni specifiche.

Immagine: Nvidia Research

Immagine: Nvidia Research


La nuova idea principale di Perfusion si chiama “Key-Locking”. Funziona collegando i nuovi concetti che l’utente desidera aggiungere, come un gatto o una sedia specifici, a una categoria più generale durante la generazione dell’immagine. Ad esempio, il gatto verrebbe collegato all’idea più ampia di “felino”.

In questo modo si evita l’overfitting, cioè quando il modello si sintonizza troppo strettamente sugli esempi di addestramento. L’overfitting rende difficile per l’IA generare nuove versioni creative del concetto.

Legando il nuovo gatto alla nozione generale di felino, il modello può ritrarre il gatto in molte pose, aspetti e ambienti diversi. Ma mantiene comunque la “gattità” essenziale che lo fa assomigliare al gatto previsto e non a un felino qualsiasi.

In parole povere, il Key-Locking consente all’IA di rappresentare in modo flessibile concetti personalizzati, pur mantenendo la loro identità di base. È come dare a un artista le seguenti indicazioni: “Disegna il mio gatto Tom, mentre dorme, gioca con i fili e annusa i fiori “

Perché Nvidia pensa che meno sia meglio

Perfusion consente inoltre di combinare più concetti personalizzati in un’unica immagine con interazioni naturali, a differenza degli strumenti esistenti che apprendono i concetti in modo isolato. Gli utenti possono guidare il processo di creazione dell’immagine attraverso messaggi di testo, unendo concetti come un gatto e una sedia specifici.

Perfusion offre una caratteristica notevole che consente agli utenti di controllare l’equilibrio tra la fedeltà visiva (l’immagine) e l’allineamento testuale (il prompt) durante l’inferenza, regolando un singolo modello da 100 KB. Questa funzionalità consente agli utenti di esplorare facilmente il fronte di Pareto (somiglianza del testo vs. somiglianza dell’immagine) e di selezionare il compromesso ottimale che si adatta alle loro esigenze specifiche, il tutto senza la necessità di riqualificarsi. È importante notare che l’addestramento di un modello richiede un po’ di finezza. Se ci si concentra troppo sulla riproduzione del modello, quest’ultimo produrrà sempre lo stesso risultato, mentre se lo si costringe a seguire troppo da vicino il prompt senza alcuna libertà, si otterrà di solito un cattivo risultato. La flessibilità di regolare quanto il generatore si avvicina al prompt è un elemento importante di personalizzazione.

Altri generatori di immagini AI hanno la possibilità di regolare con precisione l’output, ma sono ingombranti. Come riferimento, un LoRA è un metodo di regolazione fine molto usato in Stable Diffusion. Può aggiungere all’applicazione da decine di megabyte a più di un gigabyte (GB). Un altro metodo, gli embedding a inversione testuale, sono più leggeri ma meno accurati. Un modello addestrato con Dreambooth, la tecnica più accurata al momento, pesa più di 2 GB.

Immagine: Nvidia Research

Immagine: Nvidia Research


In confronto, Nvidia afferma che Perfusion produce una qualità visiva e un allineamento alle richieste superiori rispetto alle principali tecniche di intelligenza artificiale menzionate in precedenza. Le dimensioni ultra-efficienti consentono di aggiornare solo le parti necessarie quando si perfeziona la produzione di un’immagine, rispetto all’ingombro di diversi GB dei metodi che perfezionano l’intero modello.

Questa ricerca si allinea alla crescente attenzione di Nvidia per l’IA. Il titolo dell’azienda ha registrato un’impennata di oltre il 230% nel 2023, poiché le sue GPU continuano a dominare l’addestramento dei modelli di IA. Con entità come Anthropic, Google, Microsoft e Baidu che stanno investendo miliardi nell’IA generativa, l’innovativo modello Perfusion di Nvidia potrebbe darle un vantaggio.

Per ora Nvidia ha presentato solo il documento di ricerca, promettendo di rilasciare presto il codice.

Related Posts

Leave a Comment