Chiefs zvažují potenciální nabídku anglického trenéra

Technologie generování obrazů pomocí umělé inteligence (AI) se rychle zrychluje – a to ve více směrech. Nedávné pokroky katapultovaly toto odvětví od neustálého pokroku k neúprosným průlomům, které nyní slibují příchod vysoce věrné tvorby obrazu v reálném čase.

Ne že by tyto nástroje byly pomalé – jedna minuta není příliš dlouhá doba na to, abyste mohli „udělat víc“. Uživatelé však stále požadují více: více realismu, více všestrannosti, více rozmanitosti a více rychlosti. A v tomto posledním bodě jim výzkumníci rádi vyhoví.

SDXL šlape na plyn

Stability AI představila SDXL Turbo, který může představovat monumentální skok v generování obrazů umělou inteligencí. Neříkáme to lehce: nedávno oznámený model dokáže generovat obrázky za jednu sekundu namísto 30 až více než 60 sekund, které trvají obvyklým generátorům. Jedná se o generování obrázků AI téměř v reálném čase, ne-li fakticky.

SDXL Turbo se liší od všech předchozích modelů Stable Diffusion. Technologie ADD (Adversarial Diffusion Distillation) je to, co umožňuje výrazně snížit počet kroků potřebných ke generování vysoce kvalitních obrázků – dokonce jen jeden krok, zatímco běžné obrázky mohou trvat někde od 30 až po 100 kroků. „ADD je první metodou, která odemyká syntézu obrazu v jednom kroku v reálném čase pomocí základních modelů,“ tvrdí Stability AI ve výzkumné zprávě.

Představujeme SDXL Turbo: Představujeme model pro generování textu na obraz v reálném čase.

SDXL Turbo dosahuje nejmodernějšího výkonu díky nové destilační technologii, která umožňuje generování obrázků v jednom kroku s bezprecedentní kvalitou a snižuje potřebný počet kroků z 50 na pouhý jeden.

V tomto případě se jedná o… pic.twitter.com/0NA4aUqKkD

– Stability AI (@StabilityAI) November 28, 2023

SDXL Turbo využívá hybrid adverzního tréninku a destilace skóre, čímž optimalizuje generativní proces a zajišťuje rychlé vytváření obrazů při zachování vysoké věrnosti.

Díky tomu zavedení SDXL Turbo umožňuje téměř okamžitou tvorbu komplexních obrazů s vysokým rozlišením. Tento nový přístup také přivádí pozornost ke GAN, které byly po nástupu difuzní technologie do značné míry zapomenuty.

Latentní modely konzistence znamenají efektivitu

Pokud se však nechcete rozloučit se svými „staršími“ stabilními difuzními modely, mají pro vás vědci řešení.

Doprovodným produktem k pokrokům SDXL Turbo jsou modely latentní konzistence (LCM) a LCM-LoRA, z nichž každý má jedinečný přínos pro tuto oblast.

Modely LCM, jak jsou představeny ve specializovaném výzkumném článku, vynikají schopností generovat obrazy s vysokým rozlišením tím, že efektivně pracují v latentním prostoru předtrénovaných autoenkodérů, jako je Stable Diffusion. Cílem LCM je zvýšit rychlost generování obrazů bez výrazné ztráty kvality se zaměřením na výstupy s vysokým rozlišením. Pomocí metody jednostupňové řízené destilace transformují LCM předtrénované difuzní modely do rychlých generátorů obrazu a vynechávají zbytečné kroky.

Z praktického hlediska uživatelé nemusí nic dalšího měnit. Stačí stáhnout model a používat jej jako běžný kontrolní bod SDXL. Místo toho, aby procházeli obrovským množstvím kroků, však mohou snížit měřítko na minimum. Model bude vytvářet dobré snímky se čtyřmi kroky během několika sekund, místo aby počítal generování pro 25, 50 nebo 75 kroků na jeden snímek.

Existují již skvělé modely s vlastními verzemi LCM, které si můžete vyzkoušet. Doporučujeme Hephaistos_NextGENXL pro jeho všestrannost, ale k dispozici je mnoho skvělých modelů k vyzkoušení.

Vydáváme Pixart-alpha x LCM ！⚡️

S radostí vydáváme další společné dílo s týmem Pixart-alpha！@lawrence_cjs

podívejte se na odkaz zde：https://t.co/9qTYKyiaQk pic.twitter.com/HPUmXYERrk

– Allen (Simian) Luo (@SimianLuo) 30. listopadu 2023

LCM-LoRAS: turbodmychadlo pro jakýkoli model

LCM-LoRA, vydaný společně s LCM, nabízí univerzální akcelerační modul, který lze integrovat do různých modelů se stabilní difuzí. „LCM-LoRA lze považovat za zásuvný neuronový PF-ODE řešič se silnými zobecňujícími schopnostmi,“ uvádí se ve výzkumné práci.

LCM-LoRA je navržen tak, aby zvýšil efektivitu stávajících modelů Stabilní difúze a učinil je rychlejšími a univerzálnějšími. Využívá LoRA (Low-Rank Adaptation) k aktualizaci předem natrénovaných váhových matic, čímž snižuje výpočetní zátěž a paměťové nároky.

Díky LCM-LoRA dochází u běžných modelů Stabilní difúze k obrovskému nárůstu rychlosti generování obrazu, což je činí vysoce efektivními pro různé úlohy. Uživatelé by ani nemuseli stahovat nový model – stačí aktivovat LCM LoRA a generovat obrazy stejně rychle jako v režimu LCM…

Kvalita versus rychlost

I přes tyto technologické skoky zůstává potřeba vyvážit rychlost a kvalitu snímků. Nástroje pro rychlou tvorbu, jako je SDXL Turbo a LCM-LoRA, sice urychlují tvůrčí proces, ale na úkor určité věrnosti obrazu. Jinými slovy, obraz generovaný v 50 krocích a s dobrým modelem bude mít vždy vyšší rozlišení nebo věrnost obrazu než obraz generovaný v 5 krocích a s dobrým LCM modelem.

Tento kompromis je však zmírněn jejich užitečností v typických pracovních postupech, kdy se generuje mnoho snímků, aby se našel ten dokonalý. Následné iterace s nástroji, jako jsou image-to-image nebo inpaint, mohou vylepšit detaily v těchto prvních řezaných obrazech, čímž se vykompenzuje počáteční ztráta kvality. Správně upravený obrázek vygenerovaný jednou z těchto rychlých technologií může být stejně dobrý jako obrázek vygenerovaný běžným modelem Stabilní difúze.

Připoutejte se, protože prostor pro generování obrázků s umělou inteligencí se přesouvá na vyšší rychlost – a málokdo touží po rychlosti více než fanoušci umělé inteligence.

Chiefs zvažují potenciální nabídku anglického trenéra

SDXL šlape na plyn

Latentní modely konzistence znamenají efektivitu

LCM-LoRAS: turbodmychadlo pro jakýkoli model

Kvalita versus rychlost

Překvapení: Cyberpunk 2077 se dočká velké aktualizace s romantikou a možností tranzitu

Ethereum Gaming NFT Marketplace Aqua vypíná s odkazem na pomalý růst odvětví

Related Posts

Leave a Comment Cancel Reply