Un nouveau générateur d'images AI fait plus que SDXL avec moins

Stability AI, la société à l’origine du très populaire générateur d’images Stable Diffusion, vient de lancer une nouvelle grenade dans l’arène hautement compétitive de l’IA.

Le tout nouveau Stable Cascade de Stability, basé sur la nouvelle architecture open-source Würstchen, offre une approche hautement efficace et modulaire de la génération de texte à partir d’images, en équilibrant la qualité, la vitesse et l’adaptabilité.

Le modèle atteint un facteur de compression sans précédent dans les modèles de diffusion stables traditionnels, affirme l’entreprise, et il est capable de produire des résultats d’une résolution et d’un niveau de détail supérieurs – comparables aux générateurs modernes tels que SDXL ou MidJourney (qui travaillent généralement avec des résolutions de 1024×1024).

Image : Stability AI

Ingrédients de Würstchen

La Cascade Stable adopte un processus en trois étapes, à la différence de la filière traditionnelle de Diffusion Stable:

Étape A : Le compresseur d’images : Contrairement aux modèles typiques, cette étape initiale traite les images comme des puzzles avancés. À l’aide d’un réseau adversarial génératif quantifié par vecteur (VQGAN), l’image est découpée en sections compactes de 256 x 256. Chaque section reçoit un « jeton » discret provenant d’un livre de codes spécialisé. Cette étape ouvre la voie à un traitement rapide comme l’éclair dans les étapes suivantes.
Étape C : le générateur de latents conditionnels au texte L’étape C se concentre uniquement sur le traitement des instructions textuelles et la production de latents compressés. Cette approche découplée de la génération de texte réduit considérablement la complexité et le coût du réglage fin pour des cas d’utilisation spécifiques.

Image : Stability AI

En d’autres termes, il fait ce que son nom suggère. Il commence par un générateur de texte qui produit de minuscules instantanés d’images, qui sont gonflés en une image plus détaillée, puis présentés correctement à vos yeux sous la forme d’une image de haute qualité en pleine résolution.

Les avantages modulaires

La conception modulaire de Stable Cascade présente plusieurs avantages indéniables, selon ses développeurs. Le premier est son extrême efficacité : grâce à l’espace latent compressé (la manière dont une IA évalue la composition d’une image par opposition à l’espace des pixels, qui est ce que les humains voient) et au modèle Stage C ciblé, Stable Cascade atteint des temps d’inférence plus rapides, ce qui signifie qu’il calcule ses prédictions plus rapidement. Et il le fait avec des exigences matérielles considérablement réduites par rapport aux modèles de diffusion stables plus importants comme SDXL.

Les tests internes de Stability AI ont démontré la capacité de Stable Cascade à surpasser régulièrement des modèles comparables comme SDXL en termes de qualité d’image et d’esthétique. En outre, le modèle atteint ces résultats à des vitesses très élevées tout en exigeant beaucoup moins de ressources informatiques.

Image : Stability AI

Un autre avantage que l’IA de stabilité revendique est sa polyvalence. De nombreux outils que les artistes de la diffusion stable utilisent aujourd’hui pour affiner leur travail – comme les ControlNets ou les LoRas – sont compatibles. De plus, grâce à son extrême efficacité, les utilisateurs peuvent ajouter d’autres outils à leur flux de travail sans que leur mémoire ne s’effondre.

L’architecture légère du modèle, son empreinte réduite et sa compatibilité avec du matériel informatique moins puissant réduisent la barrière à l’entrée, augmentant l’accessibilité des techniques avancées de génération de texte à partir d’images pour les utilisateurs occasionnels comme pour les chercheurs.

Faire plus avec moins

Nos tests ont révélé que le modèle est précis et détaillé et qu’il ne présente pas l’esthétique délavée et caoutchouteuse des précédents modèles turbo SDXL ou LCM de Stability AI. Au contraire, il génère des images très détaillées, au même titre que les modèles SDXL affinés.

Il dispose également de capacités de génération de texte de base, qui peuvent être améliorées grâce à des listes d’armes à feu déjà disponibles dans des référentiels en ligne tels que Civitai.

Stability AI rapporte que, bien qu’il héberge plus de paramètres que Stable Diffusion XL, Stable Cascade bénéficie toujours de temps d’inférence plus rapides et excelle dans l’alignement rapide.

Le réglage fin de Stable Cascade est également moins gourmand en ressources que les modèles de Stable Diffusion de taille similaire. Les chercheurs et les passionnés peuvent potentiellement entraîner le modèle sur des ensembles de données plus petits et avec beaucoup moins de puissance de calcul, ce qui le rend très rentable.

Stable Cascade est publié sous une licence de recherche non commerciale et est facilement disponible sur le dépôt GitHub de Stability AI avec un flux de travail ComfyUI géré par la communauté déjà disponible qui télécharge automatiquement les modèles pour une plus grande facilité d’utilisation.

Un nouveau générateur d’images AI fait plus que SDXL avec moins

Ingrédients de Würstchen

Les avantages modulaires

Faire plus avec moins

La saison des points : Qui gagne la guerre des places de marché NFT sur Ethereum, Solana et Bitcoin ?

L’ETF BlackRock Bitcoin gagne 500 millions de dollars alors que l’appétit de Wall Street pour le BTC s’accroît

Related Posts

Leave a Comment Cancel Reply