Home » Prova d’arte dell’intelligenza artificiale: Il confronto tra i migliori strumenti MidJourney, Stable Diffusion v1.5 e SDXL

Prova d’arte dell’intelligenza artificiale: Il confronto tra i migliori strumenti MidJourney, Stable Diffusion v1.5 e SDXL

by Tim

L’era dell’arte generata dall’intelligenza artificiale è ben avviata e tre titani sono emersi come strumenti preferiti dai creatori digitali: Il nuovo SDXL di Stability AI, il buon vecchio Stable Diffusion v1.5 e il loro principale concorrente: MidJourney.

Dall-E di OpenAI ha dato il via a questa rivoluzione, ma la sua mancanza di sviluppo e il fatto che sia closed source fanno sì che Dall-E 2 non spicchi in nessuna categoria rispetto ai suoi concorrenti. Tuttavia, come riportato da TCN qualche giorno fa, la situazione potrebbe cambiare in futuro, poiché openAI sta testando una nuova versione di Dall-E che, a quanto pare, è competente e produce pezzi eccezionali.

Con punti di forza e limiti unici, la scelta dello strumento giusto tra le principali piattaforme è fondamentale. Vediamo come queste tecnologie di arte generativa si posizionano in termini di capacità, requisiti, stile e bellezza.

MidJourney: la droga per l’arte AI

Théâtre d'Opéra Spatial, un'immagine Midjourney che ha vinto il primo premio in un concorso di arte digitale

Théâtre d’Opéra Spatial, un’immagine Midjourney che ha vinto il primo premio in un concorso di arte digitale


Come il più facile da usare del trio, MidJourney rende l’arte AI accessibile anche agli utenti non tecnici, a patto che siano abituati a Discord. La piattaforma funziona privatamente sui server di MidJourney e gli utenti interagiscono attraverso la chat di Discord. Questo approccio chiuso ha sia vantaggi che svantaggi. L’aspetto positivo è che non è necessario disporre di hardware specializzato o di competenze di intelligenza artificiale. Ma la mancanza di trasparenza open-source sul modello e sui dati di addestramento di MidJourney lo rende piuttosto limitato per quanto riguarda le possibilità di utilizzo, e rende impossibile per gli appassionati migliorarlo.

MidJourney è l’ammaliatore dalla parlantina tranquilla, amato dai principianti per la sua interfaccia Discord facile da usare. Basta inviare al bot un messaggio di testo e voilà, in pochi minuti si ottiene un capolavoro estetico. Il problema? A 96 dollari all’anno, è un prezzo elevato per un’intelligenza artificiale che non si può personalizzare o gestire localmente. Ma almeno avrete un aspetto artistico (e nerd) alle feste!

Dal punto di vista funzionale, MidJourney sforna rapidamente immagini basate su richieste di testo, con una coesione estetica impressionante. Ma se si scava più a fondo in un argomento specifico, il risultato diventa più strano. MidJourney ama dare un tocco personale a ogni singola creazione, anche se non è quello che il suggeritore aveva immaginato. Per questo motivo, la maggior parte delle immagini può essere satura di contrasto e tende a essere più fotorealistica che realistica, al punto che dopo qualche tempo si arriva a identificare le immagini create con MidJourney in base alle loro caratteristiche estetiche.

Con MidJourney, la libertà creativa è limitata anche dalle rigide regole di contenuto della piattaforma. La censura è aggressiva, sia dal punto di vista sociale (per quanto riguarda la rappresentazione di nudità o violenza) che politico (per quanto riguarda argomenti controversi e leader specifici). Nel complesso, MidJourney offre un’allettante porta d’accesso all’arte dell’intelligenza artificiale, ma gli utenti più esperti desiderano un maggiore controllo e personalizzazione. È qui che entra in gioco Stable Diffusion.

Stable Diffusion v1.5: la “vecchia affidabile” AI art

Immagine senza titolo creata dall'utente ThaiTvNews utilizzando un modello SD v.15 personalizzato.

Immagine senza titolo creata dall’utente ThaiTvNews utilizzando un modello SD v.15 personalizzato.


Se MidJourney è una cavalcata di cavalli, Stable Diffusion v1.5 è il cavallo di battaglia affidabile. Modello open-source in fase di sviluppo attivo da oltre un anno, Stable Diffusion v1.5 alimenta molti dei più popolari strumenti per l’arte dell’intelligenza artificiale, come Leonardo AI, Lexica, Mage Space e tutti i generatori di waifu AI ora disponibili sul Google Play Store.

L’attiva comunità di MidJourney ha iterato il modello di base per creare checkpoint, embeddings e LoRA specializzati che si concentrano su tutto, dalla stilizzazione anime a paesaggi intricati, fotografie iperrealistiche e altro ancora. I lati negativi? Beh, sta iniziando a mostrare la sua età rispetto ai più giovani esperti di IA.

Apportando alcune modifiche sotto il cofano, Stable Diffusion v1.5 può generare immagini nitide e dettagliate su misura per la vostra visione creativa. La risoluzione di output è attualmente limitata a 512×512 o talvolta a 768×768 prima che la qualità si deteriori, ma le tecniche di scalatura rapida aiutano. Anche la popolarità dell’upscaling a piastrelle ha aumentato la popolarità del modello, rendendolo in grado di generare immagini a super risoluzione, ben oltre quanto può fare MidJourney.

Al momento è l’unica tecnologia che supporta l’inpainting (modifica di elementi all’interno dell’immagine). È supportato anche l’outpainting, che consente al modello di espandere l’immagine oltre la sua cornice. È multidirezionale, il che significa che gli utenti possono espandere l’immagine sia sull’asse verticale che su quello orizzontale. Supporta anche plugin di terze parti come roop (usato per creare deepfake), After Detailer (per migliorare volti e mani), Open Pose (per imitare una posa specifica) e prompt regionali.

Per poterlo eseguire, i creatori suggeriscono che è necessaria una GPU Nvidia RTX 2000 o superiore per ottenere prestazioni decenti, ma l’ingombro ridotto di Stable Diffusion v1.5 funziona senza problemi anche su schede con 4 GB di VRAM. Nonostante la sua età, il robusto supporto della comunità mantiene questa AI art OG al top della sua categoria.

SDXL: La prossima frontiera dell’AI art

Immagine senza titolo creata dall'utente Buzimage utilizzando un modello SDXL personalizzato

Immagine senza titolo creata dall’utente Buzimage utilizzando un modello SDXL personalizzato


Se Stable Diffusion v1.5 è il cavallo da tiro affidabile, SDXL è il giovane purosangue che sfreccia in pista. Questo potente modello, sempre di Stability AI, sfrutta un doppio codificatore di testo per interpretare al meglio le richieste e il suo processo di generazione a due stadi consente di ottenere una coerenza superiore delle immagini ad alte risoluzioni.

Queste capacità sembrano entusiasmanti, ma rendono SDXL un po’ più difficile da padroneggiare. Un codificatore di testo ama il linguaggio naturale breve, mentre l’altro utilizza lo stile di SD v1.5 che prevede parole chiave specifiche per descrivere la composizione.

La generazione in due fasi richiede un modello di raffinazione per inserire i dettagli nell’immagine principale. Richiede tempo, RAM e potenza di calcolo, ma i risultati sono splendidi.

SDXL è pronto a far girare la testa. Supportando quasi il triplo dei parametri di Stable Diffusion v1.5, SDXL è in grado di generare immagini con una risoluzione superiore di quasi il 50% rispetto al suo predecessore senza sudare. Ma queste prestazioni all’avanguardia hanno un costo: SDXL richiede una GPU con un minimo di 6 GB di VRAM, richiede file di modello più grandi e non dispone di specializzazioni preformate.

L’output immediato non è ancora all’altezza di un modello Stable Diffusion finemente sintonizzato. Tuttavia, man mano che la comunità si impegna nell’ottimizzazione, il potenziale di SDXL farà saltare le porte a ciò che è possibile fare con i modelli attuali.

Confronti dei risultati

Un’immagine vale più di mille parole, quindi abbiamo sintetizzato qualche migliaio di frasi cercando di mettere a confronto i diversi output utilizzando prompt simili, in modo che possiate scegliere quello che vi piace di più. Si noti che ogni modello richiede una tecnica di prompt diversa, quindi anche se non si tratta di un confronto diretto, è un buon punto di partenza.

Per essere più precisi, abbiamo usato un prompt negativo piuttosto generalizzato per Stable Diffusion, cosa di cui MidJourney non ha bisogno. A parte questo, le richieste sono le stesse e i risultati non sono stati selezionati a mano.

  • Prompt: Ritratto di un corgi in bicicletta che attraversa il mare


Commento: Qui è solo una questione di stile tra SDXL e MidJourney. Entrambi battono Stable Diffusion v1.5 anche se sembra essere l’unico in grado di creare un cane che “cavalca” correttamente la moto, o almeno la usa correttamente.

  • Prompt: La Piazza Rossa di notte


Commento: MidJourney ha cercato di creare un quadrato rosso in The Red Square. SDXL v1.0 è più nitido, ma il contrasto dei colori è migliore su SD v.15 (modello: Juggernaut v5).

  • Prompt: Un’insegnante sexy in un’aula futuristica


Commento: MidJourney ha rifiutato di generare un’immagine a causa delle sue regole di censura. SDXL è più ricco di dettagli e si occupa di produrre sia l’insegnante formosa che l’aula futuristica. SD v1.5 si è concentrato maggiormente sull’insegnante formosa (il soggetto. Modello: Photon v1) e meno sui dettagli dell’ambiente.

  • Prompt: un cervello che alimenta una macchina, jeffrey smith e h.r. giger, altamente dettagliato in 4k, di Nishida Shun’ei, poster, strumento, epico altamente dettagliato, epico cyberpunk, studio muti, bitmap, di Sugimura Jihei


Commento: Sia MidJourney che SDXL hanno prodotto risultati che si attengono alla richiesta. SDXL ha riprodotto meglio lo stile artistico, mentre MidJourney si è concentrato maggiormente sulla produzione di un’immagine esteticamente gradevole invece di ricreare lo stile artistico, perdendo anche molti dettagli del prompt (per esempio: l’immagine non mostra un cervello che alimenta una macchina, ma un teschio che alimenta una macchina).

Il futuro dell’arte generativa

Quindi quale Monet-in-training dovreste usare? Francamente, non si può sbagliare con nessuna di queste opzioni. MidJourney eccelle per usabilità e coesione estetica. Stable Diffusion v1.5 offre personalizzazione e supporto della comunità. E SDXL spinge i confini della generazione di immagini fotorealistiche. Nel frattempo, rimanete sintonizzati per vedere cosa Dall-E ha in serbo per voi.

Non fidatevi solo della nostra parola. Il pennello è nelle vostre mani e la tela bianca vi aspetta. Prendete il vostro strumento generativo preferito e iniziate a creare! Solo, magari, mantenete al minimo le minacce esistenziali per l’umanità, per favore.

Related Posts

Leave a Comment