Home » Les Chiefs envisagent une offre potentielle pour un entraîneur anglais

Les Chiefs envisagent une offre potentielle pour un entraîneur anglais

by Tim

La technologie de génération d’images par intelligence artificielle (IA) s’accélère rapidement, à plus d’un titre. Des avancées récentes ont catapulté l’industrie d’un progrès régulier à des percées incessantes, promettant maintenant l’avènement de la création d’images haute-fidélité en temps réel.

Ce n’est pas que ces outils aient été lents – une minute n’est pas de trop pour attendre de « faire plus ». Mais les utilisateurs exigent toujours plus : plus de réalisme, plus de polyvalence, plus de variété et plus de rapidité. Et sur ce dernier point, les chercheurs sont heureux d’apporter leur contribution.

SDXL met les gaz

Stability AI a dévoilé SDXL Turbo, qui pourrait représenter un saut monumental dans la génération d’images par l’IA. Nous ne disons pas cela à la légère : le modèle récemment annoncé peut générer des images en une seconde au lieu des 30 à plus de 60 secondes que prennent les générateurs habituels. Il s’agit presque, voire réellement, d’une génération d’images d’IA en temps réel.

SDXL Turbo est différent de tous les modèles de diffusion stable précédents. La technologie ADD (Adversarial Diffusion Distillation) permet de réduire considérablement le nombre d’étapes nécessaires à la génération d’images de haute qualité – une seule étape seulement, alors qu’il faut entre 30 et 100 étapes pour générer des images normales. « ADD est la première méthode permettant de débloquer la synthèse d’images en temps réel et en une seule étape avec des modèles de fondation », affirme Stability AI dans un document de recherche.

SDXL Turbo utilise un hybride d’apprentissage contradictoire et de distillation de scores, optimisant le processus génératif et garantissant que les images sont produites rapidement tout en conservant une grande fidélité.

Par conséquent, l’introduction de SDXL Turbo permet la production d’images complexes à haute résolution presque instantanément. Cette nouvelle approche attire également l’attention sur les GAN, qui ont été largement oubliés après que la technologie de diffusion a commencé à dominer la scène.

Les modèles de cohérence latente sont synonymes d’efficacité

Si vous ne voulez pas dire adieu à vos « anciens » modèles de diffusion stable, les chercheurs ont une solution pour vous.

Les avancées de SDXL Turbo s’accompagnent de modèles de cohérence latente (LCM) et de LCM-LoRA, qui apportent chacun une contribution unique au domaine.

Les LCM, tels qu’ils sont présentés dans leur document de recherche spécifique, se distinguent par leur capacité à générer des images haute résolution en opérant efficacement dans l’espace latent d’autoencodeurs pré-entraînés tels que la diffusion stable. Les LCM visent à améliorer la vitesse de génération des images sans perte significative de qualité, en se concentrant sur les résultats à haute résolution. Grâce à une méthode de distillation guidée en une étape, les LCM transforment les modèles de diffusion pré-entraînés en générateurs d’images rapides, en sautant les étapes inutiles.

En pratique, les utilisateurs n’ont rien à changer. Il suffit de télécharger le modèle et de l’utiliser comme un point de contrôle SDXL normal. Cependant, au lieu de passer par un grand nombre d’étapes, ils peuvent réduire la jauge au minimum. Le modèle produira de bonnes images avec quatre étapes en quelques secondes, au lieu de calculer la génération pour 25, 50 ou 75 étapes par image.

Il existe déjà d’excellents modèles avec leurs propres versions LCM que vous pouvez essayer. Nous recommandons Hephaistos_NextGENXL pour sa polyvalence, mais il existe de nombreux modèles excellents à tester.

LCM-LoRAS : turbochargez n’importe quel modèle

Lancé en tandem avec les LCM, LCM-LoRA offre un module d’accélération universel qui peut être intégré dans divers modèles à diffusion stable. « LCM-LoRA peut être considéré comme un solveur PF-ODE neuronal enfichable doté de fortes capacités de généralisation », peut-on lire dans le document de recherche.

LCM-LoRA est conçu pour améliorer l’efficacité des modèles de diffusion stable existants, en les rendant plus rapides et plus polyvalents. Il utilise LoRA (Low-Rank Adaptation) pour mettre à jour les matrices de poids pré-entraînées, réduisant ainsi la charge de calcul et les besoins en mémoire.

Avec LCM-LoRA, les modèles de diffusion stable normaux voient leur vitesse de génération d’images augmenter considérablement, ce qui les rend très efficaces pour diverses tâches. Les utilisateurs n’ont même pas besoin de télécharger un nouveau modèle – il suffit d’activer le LCM LoRA et de générer des images aussi rapidement qu’un mode LCM…

Qualité contre vitesse

Malgré ces avancées technologiques, il reste nécessaire de trouver un équilibre entre la vitesse et la qualité de l’image. Si les outils de génération rapide tels que SDXL Turbo et LCM-LoRA accélèrent le processus créatif, ils le font au détriment d’une certaine fidélité de l’image. En d’autres termes, une image générée avec 50 étapes et un bon modèle aura toujours une résolution ou une fidélité d’image plus élevée qu’une image générée avec 5 étapes et un bon modèle LCM.

Toutefois, ce compromis est atténué par leur utilité dans les flux de travail typiques où de nombreuses images sont générées pour trouver l’image parfaite. Les itérations ultérieures avec des outils tels que l’image à image ou l’inpaint peuvent améliorer les détails de ces images de première coupe, compensant ainsi toute perte de qualité initiale. Une image correctement éditée générée par l’une de ces technologies rapides peut être aussi bonne qu’une image générée par un modèle de diffusion stable normal.

Attachez vos ceintures, car l’espace de génération d’images par l’IA est en train de passer à la vitesse supérieure, et peu de gens sont plus avides de vitesse que les fanboys de l’IA.

Related Posts

Leave a Comment