Home » Шефовете обмислят английски треньор за потенциална оферта

Шефовете обмислят английски треньор за потенциална оферта

by v

Технологията за генериране на изображения с изкуствен интелект (AI) се ускорява бързо – в повече от един смисъл. Неотдавнашните постижения катапултираха индустрията от стабилен напредък към безмилостни пробиви, които сега обещават появата на създаване на изображения с висока точност в реално време.

Не че тези инструменти са бавни – една минута не е прекалено дълго време, за да се чака, за да се „направи нещо повече“. Но потребителите все още изискват повече: повече реализъм, повече гъвкавост, повече разнообразие и повече скорост. И по последния въпрос изследователите с удоволствие го изпълняват.

SDXL натиска педала на газта

Stability AI представи SDXL Turbo, който може да представлява монументален скок в генерирането на изображения с изкуствен интелект. Не казваме това с лека ръка: наскоро обявеният модел може да генерира изображения за една секунда вместо за 30 до над 60 секунди, които отнемат обичайните генератори. Това е почти, ако не и ефективно, генериране на AI изображения в реално време.

SDXL Turbo се различава от всички предишни модели на стабилна дифузия. Технологията Adversarial Diffusion Distillation (ADD) е това, което прави възможно значителното намаляване на броя на стъпките, необходими за генериране на висококачествени изображения – дори само една стъпка, когато нормалните изображения могат да отнемат някъде от 30 чак до 100 стъпки. „ADD е първият метод, който отключва синтез на изображения в реално време в една стъпка с модели на основата“, твърди Stability AI в изследователски документ.

SDXL Turbo използва хибрид от противниково обучение и дестилация на резултати, като оптимизира генеративния процес и гарантира, че изображенията се създават бързо, като същевременно се поддържа висока точност.

В резултат на това въвеждането на SDXL Turbo дава възможност за почти мигновено създаване на сложни изображения с висока разделителна способност. Този нов подход също така привлича вниманието към GAN, които до голяма степен бяха забравени, след като дифузионната технология започна да доминира на сцената.

Моделите на латентна последователност означават ефективност

Ако обаче не искате да се сбогувате с вашите „наследени“ модели на стабилна дифузия, изследователите имат решение за вас.

Съпътстващи постиженията на SDXL Turbo са моделите за латентна съгласуваност (LCM) и LCM-LoRA, всеки от които има уникален принос в областта.

LCMs, както са представени в специалния им изследователски документ, се отличават със способността си да генерират изображения с висока резолюция, като работят ефективно в латентното пространство на предварително обучени автоенкодери като Stable Diffusion. LCM имат за цел да повишат скоростта на генериране на изображения без значителна загуба на качество, като се фокусират върху резултатите с висока разделителна способност. Използвайки метод на едноетапна насочена дестилация, LCM трансформират предварително обучени дифузионни модели в бързи генератори на изображения, като пропускат ненужните стъпки.

От практическа гледна точка потребителите не трябва да променят нищо друго. Просто изтеглете модела и го използвайте като нормална контролна точка на SDXL. Вместо обаче да преминават през огромен брой стъпки, те биха могли да намалят габаритите до минимум. Моделът ще създава добри изображения с четири стъпки за няколко секунди, вместо да изчислява генерирането за 25, 50 или 75 стъпки на изображение.

Вече има страхотни модели със собствени версии на LCM, които можете да изпробвате. Препоръчваме Hephaistos_NextGENXL заради неговата универсалност, но има много страхотни модели, които са на разположение за тестване.

LCM-LoRAS: турбозареждане на всеки модел

Издаден заедно с LCM, LCM-LoRAS предлага универсален модул за ускоряване, който може да се интегрира в различни модели на стабилна дифузия. „LCM-LoRA може да се разглежда като приставка към невронен PF-ODE решател със силни възможности за обобщаване“, се казва в изследователския документ.

LCM-LoRA е проектиран да повиши ефективността на съществуващите модели на стабилна дифузия, като ги направи по-бързи и по-гъвкави. Той използва LoRA (Low-Rank Adaptation) за актуализиране на предварително обучените теглови матрици, като намалява изчислителното натоварване и изискванията към паметта.

С LCM-LoRA нормалните модели на стабилна дифузия изпитват огромно увеличение на скоростта на генериране на изображения, което ги прави изключително ефективни за различни задачи. На потребителите дори няма да им се налага да изтеглят нов модел – просто активирайте LCM LoRA и генерирайте изображения толкова бързо, колкото би било в режим LCM…

Качество срещу скорост

Въпреки тези технологични скокове, остава необходимостта от балансиране на скоростта и качеството на изображенията. Макар че инструментите за бързо генериране като SDXL Turbo и LCM-LoRA ускоряват творческия процес, те го правят за сметка на част от верността на изображението. С други думи, изображение, генерирано с 50 стъпки и добър модел, винаги ще има по-висока разделителна способност или вярност на изображението, отколкото изображение, генерирано с 5 стъпки и добър LCM модел.

Този компромис обаче се смекчава от полезността им в типичните работни процеси, при които се генерират множество изображения, за да се намери идеалното. Последващите итерации с инструменти като image-to-image или inpaint могат да подобрят детайлите в тези първоизрязани изображения, компенсирайки всяка първоначална загуба на качество. Правилно редактирано изображение, генерирано с една от тези бързи технологии, може да бъде толкова добро, колкото и изображение, генерирано с нормален модел на стабилна дифузия.

Затегнете предпазните колани, защото пространството за генериране на изображения с изкуствен интелект се премества на висока скорост – и малко хора жадуват за скорост повече от феновете на изкуствения интелект.

Related Posts

Leave a Comment