Home » Nový generátor obrázků s umělou inteligencí zvládne více než SDXL s menšími nároky

Nový generátor obrázků s umělou inteligencí zvládne více než SDXL s menšími nároky

by v

Stability AI, společnost stojící za velmi populárním generátorem obrázků Stable Diffusion, právě vrhla další granát do horké konkurenční arény umělé inteligence.

Zbrusu nový generátor Stability Cascade, poháněný novou, open-source architekturou Würstchen, poskytuje vysoce efektivní a modulární přístup ke generování textů do obrázků a vyvažuje kvalitu, rychlost a přizpůsobivost.

Model dosahuje kompresního faktoru, který se nepodobá ničemu, co bylo dříve k vidění v tradičních modelech Stable Diffusion, tvrdí společnost, a je schopen produkovat výsledky s větším rozlišením a detaily – srovnatelné s moderními generátory, jako je SDXL nebo MidJourney (které obvykle pracují s rozlišením 1024×1024).

Obrázek: Stability AI

Obrázek: Stability AI

Würstchenovy složky

Stabilní kaskáda využívá třístupňový proces, na rozdíl od tradičního potrubí Stabilní difúze:

  • Stupeň A: Kompresor obrazu: Na rozdíl od typických modelů zpracovává tento počáteční stupeň obrazy jako pokročilé skládačky. Pomocí vektorově kvantizované generativní adverzní sítě (VQGAN) je obraz rozřezán na kompaktní části o velikosti 256×256. Každý úsek obdrží diskrétní „token“ ze specializované kódové knihy. Tento krok připravuje půdu pro bleskurychlé zpracování v následujících fázích.
  • Fáze B: Přestavba (Latentní difuzní model) Tato fáze zpracovává práci na rekonstrukci obrazu po kompresi. Představte si ji jako zkušeného stavebního renovátora, který pro svou práci používá podrobné pokyny a plány.
  • Fáze C: Textově podmíněný generátor latentů Fáze C se zaměřuje výhradně na zpracování textových instrukcí a vytváření komprimovaných latentů. Tento oddělený přístup k textovému generátoru výrazně snižuje složitost a náklady na doladění pro konkrétní případy použití.
Obrázek: Stability AI

Obrázek: Stability AI


Jinými slovy, dělá to, co naznačuje jeho název. Začíná generátorem řízeným textem, který chrlí drobné snímky obrázků, které se nafouknou do detailnějšího a pak se vašim očím řádně předloží jako kvalitní obrázek v plném rozlišení.

Modulární výhody

Modulární konstrukce systému Stable Cascade přináší podle jeho vývojářů několik přesvědčivých výhod. První z nich je extrémní efektivita: díky komprimovanému latentnímu prostoru (způsob, jakým umělá inteligence vyhodnocuje kompozici obrazu, na rozdíl od pixelového prostoru, který vidí lidé) a soustředěnému modelu Stage C dosahuje Stable Cascade kratších časů inference, což znamená, že své předpovědi počítá rychleji. A činí tak s výrazně nižšími hardwarovými nároky ve srovnání s většími modely Stable Diffusion, jako je SDXL.

Interní testy společnosti Stability AI prokázaly schopnost modelu Stable Cascade trvale překonávat srovnatelné modely, jako je SDXL, a to jak z hlediska kvality obrazu, tak z hlediska estetického dojmu. Model navíc dosahuje těchto výsledků při velmi vysokých rychlostech a zároveň vyžaduje podstatně méně výpočetních prostředků.

Obrázek: Stability AI

Obrázek: Stability AI


Další výhodou, kterou Stability AI uvádí, je její všestrannost. Mnoho nástrojů, které nyní tvůrci Stability Diffusion používají ke zdokonalení své práce – jako například ControlNets nebo LoRas – je kompatibilních. A díky své extrémní efektivitě mohou uživatelé do svých pracovních postupů přidávat další tyto nástroje, aniž by se jim zhroutila paměť.

Odlehčená architektura modelu, menší plocha modelu a kompatibilita s méně výkonným výpočetním hardwarem snižují vstupní bariéru, čímž zvyšují dostupnost pokročilých technik generování textu do obrazu jak pro běžné uživatele, tak pro výzkumné pracovníky.

Dělat více s menším množstvím


Naše testy zjistily, že model je přesný a detailní a nevykazuje vymytou, gumovou estetiku předchozích modelů SDXL turbo nebo LCM společnosti Stability AI. Namísto toho generuje vysoce detailní snímky srovnatelné s vyladěnými modely SDXL.

Má také některé základní možnosti generování textu, které lze dále rozšířit pomocí LoRA, které jsou již k dispozici v online úložištích, jako je Civitai.

Společnost Stability AI uvádí, že navzdory tomu, že obsahuje více parametrů než model Stable Diffusion XL, má Stable Cascade stále rychlejší časy odvozování a vyniká v pohotovém zarovnávání.

Dolaďování modelu Stable Cascade je také méně náročné na zdroje ve srovnání s modely Stable Diffusion podobné velikosti. Výzkumníci a nadšenci mohou model potenciálně trénovat na menších souborech dat a s podstatně menším výpočetním výkonem, což jej činí velmi ekonomickým.

Stable Cascade je uvolněn pod nekomerční výzkumnou licencí a je snadno dostupný v repozitáři GitHub společnosti Stability AI, kde je již k dispozici komunitou spravovaný pracovní postup ComfyUI, který automaticky stahuje modely pro snadnější použití.

Related Posts

Leave a Comment