Nový generátor obrázků s umělou inteligencí zvládne více než SDXL s menšími nároky

Stability AI, společnost stojící za velmi populárním generátorem obrázků Stable Diffusion, právě vrhla další granát do horké konkurenční arény umělé inteligence.

Zbrusu nový generátor Stability Cascade, poháněný novou, open-source architekturou Würstchen, poskytuje vysoce efektivní a modulární přístup ke generování textů do obrázků a vyvažuje kvalitu, rychlost a přizpůsobivost.

Model dosahuje kompresního faktoru, který se nepodobá ničemu, co bylo dříve k vidění v tradičních modelech Stable Diffusion, tvrdí společnost, a je schopen produkovat výsledky s větším rozlišením a detaily – srovnatelné s moderními generátory, jako je SDXL nebo MidJourney (které obvykle pracují s rozlišením 1024×1024).

Obrázek: Stability AI

Würstchenovy složky

Stabilní kaskáda využívá třístupňový proces, na rozdíl od tradičního potrubí Stabilní difúze:

Stupeň A: Kompresor obrazu: Na rozdíl od typických modelů zpracovává tento počáteční stupeň obrazy jako pokročilé skládačky. Pomocí vektorově kvantizované generativní adverzní sítě (VQGAN) je obraz rozřezán na kompaktní části o velikosti 256×256. Každý úsek obdrží diskrétní „token“ ze specializované kódové knihy. Tento krok připravuje půdu pro bleskurychlé zpracování v následujících fázích.
Fáze B: Přestavba (Latentní difuzní model) Tato fáze zpracovává práci na rekonstrukci obrazu po kompresi. Představte si ji jako zkušeného stavebního renovátora, který pro svou práci používá podrobné pokyny a plány.
Fáze C: Textově podmíněný generátor latentů Fáze C se zaměřuje výhradně na zpracování textových instrukcí a vytváření komprimovaných latentů. Tento oddělený přístup k textovému generátoru výrazně snižuje složitost a náklady na doladění pro konkrétní případy použití.

Obrázek: Stability AI

Jinými slovy, dělá to, co naznačuje jeho název. Začíná generátorem řízeným textem, který chrlí drobné snímky obrázků, které se nafouknou do detailnějšího a pak se vašim očím řádně předloží jako kvalitní obrázek v plném rozlišení.

Modulární výhody

Modulární konstrukce systému Stable Cascade přináší podle jeho vývojářů několik přesvědčivých výhod. První z nich je extrémní efektivita: díky komprimovanému latentnímu prostoru (způsob, jakým umělá inteligence vyhodnocuje kompozici obrazu, na rozdíl od pixelového prostoru, který vidí lidé) a soustředěnému modelu Stage C dosahuje Stable Cascade kratších časů inference, což znamená, že své předpovědi počítá rychleji. A činí tak s výrazně nižšími hardwarovými nároky ve srovnání s většími modely Stable Diffusion, jako je SDXL.

Interní testy společnosti Stability AI prokázaly schopnost modelu Stable Cascade trvale překonávat srovnatelné modely, jako je SDXL, a to jak z hlediska kvality obrazu, tak z hlediska estetického dojmu. Model navíc dosahuje těchto výsledků při velmi vysokých rychlostech a zároveň vyžaduje podstatně méně výpočetních prostředků.

Obrázek: Stability AI

Další výhodou, kterou Stability AI uvádí, je její všestrannost. Mnoho nástrojů, které nyní tvůrci Stability Diffusion používají ke zdokonalení své práce – jako například ControlNets nebo LoRas – je kompatibilních. A díky své extrémní efektivitě mohou uživatelé do svých pracovních postupů přidávat další tyto nástroje, aniž by se jim zhroutila paměť.

Odlehčená architektura modelu, menší plocha modelu a kompatibilita s méně výkonným výpočetním hardwarem snižují vstupní bariéru, čímž zvyšují dostupnost pokročilých technik generování textu do obrazu jak pro běžné uživatele, tak pro výzkumné pracovníky.

Dělat více s menším množstvím

Naše testy zjistily, že model je přesný a detailní a nevykazuje vymytou, gumovou estetiku předchozích modelů SDXL turbo nebo LCM společnosti Stability AI. Namísto toho generuje vysoce detailní snímky srovnatelné s vyladěnými modely SDXL.

Má také některé základní možnosti generování textu, které lze dále rozšířit pomocí LoRA, které jsou již k dispozici v online úložištích, jako je Civitai.

Společnost Stability AI uvádí, že navzdory tomu, že obsahuje více parametrů než model Stable Diffusion XL, má Stable Cascade stále rychlejší časy odvozování a vyniká v pohotovém zarovnávání.

Dolaďování modelu Stable Cascade je také méně náročné na zdroje ve srovnání s modely Stable Diffusion podobné velikosti. Výzkumníci a nadšenci mohou model potenciálně trénovat na menších souborech dat a s podstatně menším výpočetním výkonem, což jej činí velmi ekonomickým.

Stable Cascade je uvolněn pod nekomerční výzkumnou licencí a je snadno dostupný v repozitáři GitHub společnosti Stability AI, kde je již k dispozici komunitou spravovaný pracovní postup ComfyUI, který automaticky stahuje modely pro snadnější použití.

Nový generátor obrázků s umělou inteligencí zvládne více než SDXL s menšími nároky

Würstchenovy složky

Modulární výhody

Dělat více s menším množstvím

Sezóna bodů: Kdo vítězí ve válce na trhu NFT s Ethereem, Solanou a Bitcoinem?

BlackRock Bitcoin ETF získává 500 milionů dolarů, jak Wall Street roste chuť na BTC

Related Posts

Leave a Comment Cancel Reply