Home » I Chiefs considerano l’allenatore inglese per una potenziale offerta

I Chiefs considerano l’allenatore inglese per una potenziale offerta

by Tim

La tecnologia di generazione di immagini con l’intelligenza artificiale (AI) sta accelerando rapidamente, in molti modi. I recenti progressi hanno catapultato il settore da progressi costanti a progressi inarrestabili, promettendo ora l’avvento della creazione di immagini in tempo reale e ad alta fedeltà.

Non che questi strumenti fossero lenti: un minuto non è troppo per aspettare di “fare di più”. Ma gli utenti chiedono ancora di più: più realismo, più versatilità, più varietà e più velocità. E su quest’ultimo punto, i ricercatori sono lieti di rispondere.

SDXL spinge sull’acceleratore

Stability AI ha presentato SDXL Turbo, che potrebbe rappresentare un salto monumentale nella generazione di immagini AI. Non lo diciamo a cuor leggero: il modello appena annunciato è in grado di generare immagini in un secondo, invece dei 30-60 secondi che impiegano i generatori abituali. Si tratta quasi, se non proprio, di una generazione di immagini AI in tempo reale.

SDXL Turbo è diverso da tutti i precedenti modelli di Diffusione Stabile. La tecnologia ADD (Adversarial Diffusion Distillation) consente di ridurre in modo significativo il numero di passaggi necessari per generare immagini di alta qualità: anche un solo passaggio, quando le immagini normali potrebbero richiedere da 30 a 100 passaggi. “ADD è il primo metodo per sbloccare la sintesi di immagini in tempo reale e in un solo passaggio con modelli di fondazione”, afferma Stability AI in un documento di ricerca.

SDXL Turbo impiega un ibrido tra formazione avversaria e distillazione dei punteggi, ottimizzando il processo generativo e garantendo la produzione rapida di immagini pur mantenendo un’elevata fedeltà.

Di conseguenza, l’introduzione di SDXL Turbo consente di produrre immagini complesse e ad alta risoluzione quasi istantaneamente. Questo nuovo approccio riporta anche l’attenzione sulle GAN, che sono state ampiamente dimenticate dopo che la tecnologia di diffusione ha iniziato a dominare la scena.

I modelli di coerenza latente significano efficienza

Se non volete dire addio ai vostri modelli “legacy” di Diffusione Stabile, tuttavia, i ricercatori hanno una soluzione per voi.

Ad accompagnare i progressi di SDXL Turbo ci sono i modelli di consistenza latente (LCM) e LCM-LoRA, che contribuiscono in modo unico al settore.

Gli LCM, come presentato nel documento di ricerca dedicato, si distinguono per la loro capacità di generare immagini ad alta risoluzione operando in modo efficiente all’interno dello spazio latente di autoencoder pre-addestrati come lo Stable Diffusion. Gli LCM mirano a migliorare la velocità di generazione delle immagini senza una significativa perdita di qualità, concentrandosi su risultati ad alta risoluzione. Utilizzando un metodo di distillazione guidata a uno stadio, gli LCM trasformano i modelli di diffusione pre-addestrati in rapidi generatori di immagini, saltando i passaggi non necessari.

In pratica, gli utenti non devono modificare nient’altro. È sufficiente scaricare il modello e utilizzarlo come un normale checkpoint SDXL. Tuttavia, invece di eseguire un numero enorme di passaggi, possono ridurre il calibro al minimo. Il modello produrrà buone immagini con quattro passaggi in un paio di secondi, invece di calcolare la generazione per 25, 50 o 75 passaggi per immagine.

Esistono già ottimi modelli con le loro versioni LCM da provare. Noi consigliamo Hephaistos_NextGENXL per la sua versatilità, ma ci sono molti ottimi modelli disponibili per la prova.

LCM-LoRAS: turbo a qualsiasi modello

Rilasciato in tandem con gli LCM, LCM-LoRA offre un modulo di accelerazione universale che può essere integrato in vari modelli a diffusione stabile. “LCM-LoRA può essere visto come un solutore neurale PF-ODE plug-in con forti capacità di generalizzazione”, si legge nel documento di ricerca.

LCM-LoRA è stato progettato per aumentare l’efficienza dei modelli di Diffusione Stabile esistenti, rendendoli più veloci e versatili. Impiega LoRA (Low-Rank Adaptation) per aggiornare le matrici di peso pre-addestrate, riducendo il carico computazionale e i requisiti di memoria.

Con LCM-LoRA, i normali modelli di Diffusione Stabile aumentano enormemente la velocità di generazione delle immagini, rendendoli estremamente efficaci per diversi compiti. Gli utenti non hanno nemmeno bisogno di scaricare un nuovo modello: basta attivare LCM LoRA per generare immagini con la stessa velocità di una modalità LCM.

Qualità contro velocità

Nonostante questi progressi tecnologici, rimane la necessità di bilanciare velocità e qualità delle immagini. Sebbene strumenti di generazione rapida come SDXL Turbo e LCM-LoRA accelerino il processo creativo, lo fanno a spese di una certa fedeltà dell’immagine. In altre parole, un’immagine generata con 50 passaggi e un buon modello avrà sempre una risoluzione o una fedeltà dell’immagine superiore rispetto a un’immagine generata con 5 passaggi e un buon modello LCM.

Tuttavia, questo compromesso è mitigato dalla loro utilità nei tipici flussi di lavoro in cui vengono generate numerose immagini per trovare quella perfetta. Le iterazioni successive con strumenti come image-to-image o inpaint possono migliorare i dettagli di queste immagini di primo taglio, compensando la perdita di qualità iniziale. Un’immagine modificata correttamente, generata con una di queste tecnologie veloci, può essere altrettanto buona di un’immagine generata da un normale modello di Diffusione Stabile.

Allacciate le cinture di sicurezza perché il settore della generazione di immagini AI sta andando in overdrive e poche persone desiderano la velocità più dei fanboy dell’AI.

Related Posts

Leave a Comment