Nowy generator obrazów AI robi więcej niż SDXL przy mniejszych nakładach

Stability AI, firma stojąca za szalenie popularnym generatorem obrazów Stable Diffusion, właśnie wrzuciła kolejny granat na arenę gorącej konkurencji w dziedzinie sztucznej inteligencji.

Zupełnie nowy Stable Cascade, oparty na nowej, otwartej architekturze Würstchen, zapewnia wysoce wydajne i modułowe podejście do generowania tekstu na obraz, równoważąc jakość, szybkość i zdolność adaptacji.

Jak twierdzi firma, model ten osiąga współczynnik kompresji niespotykany wcześniej w tradycyjnych modelach Stable Diffusion i jest w stanie generować wyniki o większej rozdzielczości i szczegółowości – porównywalne z nowoczesnymi generatorami, takimi jak SDXL lub MidJourney (które zwykle działają w rozdzielczości 1024×1024).

Image: Stability AI

Składniki Würstchen

Stable Cascade przyjmuje trzyetapowy proces, w odróżnieniu od tradycyjnego rurociągu Stable Diffusion:

Etap A: Kompresor obrazu: W przeciwieństwie do typowych modeli, ten początkowy etap przetwarza obrazy jak zaawansowane puzzle. Wykorzystując wektorową kwantyzowaną generatywną sieć adwersarzy (VQGAN), obraz jest dzielony na kompaktowe sekcje 256×256. Każda sekcja otrzymuje dyskretny „token” z wyspecjalizowanej książki kodowej. Ten krok toruje drogę do błyskawicznego przetwarzania w kolejnych etapach.
Stage B: The Rebuilder (Latent Diffusion Model) Ta faza zajmuje się rekonstrukcją obrazu po kompresji. Pomyśl o niej jak o wykwalifikowanym renowatorze budynków, który korzysta ze szczegółowych instrukcji i planów swojej pracy.
Stage C: The Text-Conditional Latent Generator Etap C skupia się wyłącznie na przetwarzaniu instrukcji tekstowych i tworzeniu skompresowanych latentów. To oddzielone podejście do generowania tekstu drastycznie zmniejsza złożoność i koszty dostrajania do konkretnych przypadków użycia.

Image: Stability AI

Innymi słowy, robi to, co sugeruje jego nazwa. Zaczyna się od generatora tekstowego, który generuje małe migawki obrazu, które są nadmuchiwane do bardziej szczegółowego, a następnie odpowiednio prezentowane oczom jako wysokiej jakości obraz w pełnej rozdzielczości.

Zalety modułowości

Modułowa konstrukcja Stable Cascade niesie ze sobą, zdaniem twórców, kilka istotnych zalet. Pierwszą z nich jest ekstremalna wydajność: dzięki skompresowanej przestrzeni ukrytej (sposób, w jaki sztuczna inteligencja ocenia kompozycję obrazu w przeciwieństwie do przestrzeni pikseli, którą widzą ludzie) i skoncentrowanemu modelowi Stage C, Stable Cascade osiąga krótsze czasy wnioskowania, co oznacza, że szybciej oblicza swoje prognozy. I robi to przy znacznie mniejszych wymaganiach sprzętowych w porównaniu do większych modeli Stable Diffusion, takich jak SDXL.

Wewnętrzne testy Stability AI wykazały zdolność Stable Cascade do konsekwentnego przewyższania porównywalnych modeli, takich jak SDXL, zarówno pod względem jakości obrazu, jak i estetyki. Co więcej, model ten osiąga te wyniki przy bardzo dużych prędkościach, wymagając przy tym znacznie mniej zasobów obliczeniowych.

Image: Stability AI

Kolejną zaletą Stability AI jest jej wszechstronność. Wiele z narzędzi, których artyści Stable Diffusion używają obecnie do udoskonalania swojej pracy – takich jak ControlNets czy LoRas – jest kompatybilnych. A ze względu na wyjątkową wydajność, użytkownicy mogą dodawać więcej tych narzędzi do swoich przepływów pracy bez zawalania pamięci.

Lekka architektura modelu, mniejszy ślad modelu i kompatybilność z mniej wydajnym sprzętem komputerowym obniżają barierę wejścia, zwiększając dostępność zaawansowanych technik generowania tekstu na obraz zarówno dla zwykłych użytkowników, jak i naukowców.

Doing more with less

Nasze testy wykazały, że model jest dokładny i szczegółowy i nie wykazuje wypranej, gumowatej estetyki poprzednich modeli SDXL turbo lub LCM firmy Stability AI. Zamiast tego generuje bardzo szczegółowe obrazy na równi z dopracowanymi modelami SDXL.

Posiada również pewne podstawowe możliwości generowania tekstu, które można dodatkowo ulepszyć za pomocą LoRA, które są już dostępne w repozytoriach online, takich jak Civitai.

Stability AI informuje, że pomimo hostowania większej liczby parametrów niż Stable Diffusion XL, Stable Cascade nadal cieszy się szybszym czasem wnioskowania i wyróżnia się szybkim wyrównaniem.

Dostrajanie Stable Cascade jest również mniej zasobochłonne w porównaniu do modeli Stable Diffusion o podobnej wielkości. Naukowcy i entuzjaści mogą potencjalnie trenować model na mniejszych zbiorach danych i przy znacznie mniejszej mocy obliczeniowej, co czyni go bardzo opłacalnym.

Stable Cascade jest wydany na niekomercyjnej licencji badawczej i jest łatwo dostępny w repozytorium GitHub Stability AI z już dostępnym, utrzymywanym przez społeczność przepływem pracy ComfyUI, który automatycznie pobiera modele dla większej łatwości użytkowania.

Nowy generator obrazów AI robi więcej niż SDXL przy mniejszych nakładach

Składniki Würstchen

Zalety modułowości

Doing more with less

Sezon punktów: Kto wygrywa wojny na rynku NFT na Ethereum, Solanie i Bitcoinie?

BlackRock Bitcoin ETF zyskuje 500 mln USD, gdy apetyt Wall Street na BTC rośnie

Related Posts

Leave a Comment Cancel Reply