Chiefs rozważają ofertę dla angielskiego trenera

Technologia generowania obrazów w oparciu o sztuczną inteligencję (AI) szybko przyspiesza – i to na wiele sposobów. Ostatnie postępy katapultowały branżę od stałego postępu do nieustannych przełomów, obiecując teraz nadejście tworzenia obrazów o wysokiej wierności w czasie rzeczywistym.

Nie chodzi o to, że narzędzia te były powolne – jedna minuta to nie za długo, by czekać na „więcej”. Ale użytkownicy wciąż wymagają więcej: większego realizmu, większej wszechstronności, większej różnorodności i większej szybkości. I w tej ostatniej kwestii naukowcy z radością dostarczają.

SDXL wciska pedał gazu

Stability AI zaprezentowało SDXL Turbo, które może stanowić monumentalny skok w generowaniu obrazów przez sztuczną inteligencję. Nie mówimy tego lekko: niedawno ogłoszony model może generować obrazy w ciągu jednej sekundy zamiast od 30 do ponad 60 sekund, które zajmują zwykłe generatory. Jest to prawie, jeśli nie skutecznie, generowanie obrazów AI w czasie rzeczywistym.

SDXL Turbo różni się od wszystkich poprzednich modeli Stable Diffusion. Technologia Adversarial Diffusion Distillation (ADD) umożliwia znaczne zmniejszenie liczby kroków wymaganych do wygenerowania wysokiej jakości obrazów – nawet o jeden krok, podczas gdy normalne obrazy mogą zająć od 30 do 100 kroków. „ADD to pierwsza metoda odblokowania jednoetapowej syntezy obrazu w czasie rzeczywistym z modelami fundamentów” – twierdzi Stability AI w artykule badawczym.

Wprowadzenie SDXL Turbo: Model generowania tekstu na obraz w czasie rzeczywistym.

SDXL Turbo osiąga najnowocześniejszą wydajność dzięki nowej technologii destylacji, umożliwiając jednoetapowe generowanie obrazu o niespotykanej dotąd jakości, zmniejszając wymaganą liczbę kroków z 50 do zaledwie jednego.

The… pic.twitter.com/0NA4aUqKkD

– Stability AI (@StabilityAI) 28 listopada 2023

SDXL Turbo wykorzystuje hybrydę treningu kontradyktoryjnego i destylacji wyników, optymalizując proces generowania i zapewniając szybkie tworzenie obrazów przy zachowaniu wysokiej wierności.

W rezultacie wprowadzenie SDXL Turbo umożliwia niemal natychmiastowe tworzenie złożonych obrazów o wysokiej rozdzielczości. To nowe podejście zwraca również uwagę na sieci GAN, które zostały w dużej mierze zapomniane po tym, jak technologia dyfuzyjna zaczęła dominować na scenie.

Latentne modele spójności oznaczają wydajność

Jeśli jednak nie chcesz żegnać się ze swoimi „starszymi” modelami stabilnej dyfuzji, naukowcy mają dla Ciebie rozwiązanie.

Towarzyszące SDXL Turbo postępy to modele ukrytej spójności (LCM) i LCM-LoRA, z których każdy wnosi wyjątkowy wkład w tę dziedzinę.

LCM, jak przedstawiono w dedykowanym artykule badawczym, wyróżniają się zdolnością do generowania obrazów o wysokiej rozdzielczości poprzez wydajne działanie w ukrytej przestrzeni wstępnie wytrenowanych autoenkoderów, takich jak Stable Diffusion. LCM mają na celu zwiększenie szybkości generowania obrazów bez znaczącej utraty jakości, koncentrując się na wynikach o wysokiej rozdzielczości. Wykorzystując jednoetapową metodę kierowanej destylacji, LCM przekształcają wstępnie wytrenowane modele dyfuzji w szybkie generatory obrazu, pomijając niepotrzebne kroki.

W praktyce użytkownicy nie muszą niczego zmieniać. Wystarczy pobrać model i użyć go jako normalnego punktu kontrolnego SDXL. Jednak zamiast przechodzić przez ogromną liczbę kroków, mogą zmniejszyć miernik do minimum. Model będzie generował dobre obrazy z czterema krokami w ciągu kilku sekund, zamiast obliczać generowanie dla 25, 50 lub 75 kroków na obraz.

Istnieją już świetne modele z własnymi wersjami LCM do wypróbowania. Polecamy Hephaistos_NextGENXL ze względu na jego wszechstronność, ale istnieje wiele świetnych modeli dostępnych do testowania.

Wydajemy Pixart-alpha x LCM！⚡️

Cieszymy się, że możemy wydać kolejną współpracę z zespołem Pixart-alpha！@lawrence_cjs

sprawdź link tutaj：https://t.co/9qTYKyiaQk pic.twitter.com/HPUmXYERrk

– Allen (Simian) Luo (@SimianLuo) November 30, 2023

LCM-LoRAS: turbodoładowanie dowolnego modelu

Wydany w połączeniu z LCM, LCM-LoRA oferuje uniwersalny moduł przyspieszenia, który można zintegrować z różnymi modelami Stable-Diffusion. „LCM-LoRA może być postrzegany jako neuronowy solver PF-ODE z silnymi możliwościami generalizacji”, czytamy w artykule badawczym.

LCM-LoRA został zaprojektowany w celu zwiększenia wydajności istniejących modeli stabilnej dyfuzji, czyniąc je szybszymi i bardziej wszechstronnymi. Wykorzystuje on LoRA (Low-Rank Adaptation) do aktualizacji wstępnie wytrenowanych macierzy wag, zmniejszając obciążenie obliczeniowe i wymagania dotyczące pamięci.

Dzięki LCM-LoRA zwykłe modele Stable Diffusion doświadczają ogromnego wzrostu prędkości generowania obrazu, co czyni je wysoce skutecznymi w różnych zadaniach. Użytkownicy nie muszą nawet pobierać nowego modelu – wystarczy aktywować LCM-LoRA i generować obrazy tak szybko, jak w trybie LCM…

Jakość kontra szybkość

Pomimo tych skoków technologicznych, nadal istnieje potrzeba zrównoważenia szybkości i jakości obrazu. Podczas gdy narzędzia do szybkiego generowania, takie jak SDXL Turbo i LCM-LoRA, przyspieszają proces twórczy, odbywa się to kosztem pewnej wierności obrazu. Innymi słowy, obraz wygenerowany przy użyciu 50 kroków i dobrego modelu zawsze będzie miał wyższą rozdzielczość lub wierność obrazu niż obraz wygenerowany przy użyciu 5 kroków i dobrego modelu LCM.

Ten kompromis jest jednak łagodzony przez ich użyteczność w typowych przepływach pracy, w których generowanych jest wiele obrazów w celu znalezienia idealnego. Kolejne iteracje za pomocą narzędzi takich jak image-to-image lub inpaint mogą poprawić szczegóły w tych pierwszych wyciętych obrazach, nadrabiając początkową utratę jakości. Odpowiednio edytowany obraz wygenerowany za pomocą jednej z tych szybkich technologii może być tak dobry, jak obraz wygenerowany przez normalny model Stable Diffusion.

Zapnij pasy, ponieważ przestrzeń generowania obrazów AI zmienia się w nadbieg – i niewielu ludzi pragnie szybkości bardziej niż fanboje AI.

Chiefs rozważają ofertę dla angielskiego trenera

SDXL wciska pedał gazu

Latentne modele spójności oznaczają wydajność

LCM-LoRAS: turbodoładowanie dowolnego modelu

Jakość kontra szybkość

Niespodzianka: „Cyberpunk 2077” doczeka się dużej aktualizacji z opcjami romansowymi i tranzytowymi

Rynek gier Ethereum NFT Aqua zamyka się, powołując się na powolny wzrost branży

Related Posts

Leave a Comment Cancel Reply