Home » Apple otřásá open-source umělou inteligencí pomocí editoru obrázků MGIE

Apple otřásá open-source umělou inteligencí pomocí editoru obrázků MGIE

by Tim

Po většinu loňského roku, kdy se zdálo, že se Apple drží stranou, začíná společnost Apple otřásat situací v oblasti umělé inteligence – a zejména v oblasti umělé inteligence s otevřeným zdrojovým kódem.

Cupertinský technologický gigant spolupracuje s univerzitou v Santa Barbaře na vývoji modelu umělé inteligence, který dokáže upravovat obrázky na základě přirozeného jazyka, tedy stejným způsobem, jakým lidé komunikují s ChatGPT. Apple tomu říká Multimodal Large-Language Model-Guided Image Editing (MGIE).

MGIE interpretuje textové instrukce zadané uživateli, zpracovává je a zpřesňuje a vytváří přesné příkazy k úpravě obrázků. Integrace difuzního modelu tento proces vylepšuje a umožňuje MGIE aplikovat úpravy na základě vlastností původního obrázku.

Základem metody MGIE jsou multimodální rozsáhlé jazykové modely (MLLM), které mohou zpracovávat text i obrázky. Na rozdíl od tradičních jednovidových UI, které se zaměřují pouze na text nebo obrázky, mohou MLLM zpracovávat složité instrukce a pracovat v širším spektru situací. Model může například porozumět textovému pokynu, analyzovat prvky konkrétní fotografie, pak z obrázku něco vyjmout a vytvořit nový obrázek bez tohoto prvku.

K provedení těchto činností musí mít systém umělé inteligence různé schopnosti, včetně generování textu, generování obrazu, segmentace a analýzy CLIP, a to vše v rámci jednoho procesu.

Zavedení MGIE přibližuje společnost Apple k dosažení schopností podobných funkci ChatGPT Plus společnosti OpenAI, která umožňuje uživatelům zapojit se do konverzační interakce s modely AI a vytvářet vlastní obrázky na základě textového vstupu. Pomocí MGIE mohou uživatelé zadávat podrobné pokyny v přirozeném jazyce – „odstraňte dopravní kužel z popředí“ -, které se přeloží do příkazů pro úpravu obrázků a provedou se.

Jinými slovy, uživatelé mohou začít s fotografií blonďaté osoby a změnit ji na zrzavou pouhým zadáním: „udělejte z této osoby zrzku“. Pod kapotou by Model porozuměl instrukci, segmentoval vlasy osoby, vygeneroval příkaz typu „zrzavé vlasy, vysoce detailní, fotorealistický, zrzavý odstín“ a poté provedl změny prostřednictvím inpaintingu.

Přístup společnosti Apple se shoduje s existujícími nástroji, jako je Stable Diffusion, které je možné rozšířit o základní rozhraní pro textem řízené úpravy obrázků. S využitím nástrojů třetích stran, jako je Pix2Pix, mohou uživatelé komunikovat s rozhraním Stable Diffusion pomocí příkazů v přirozeném jazyce a být svědky efektů na upravených obrázcích v reálném čase.

Přístup společnosti Apple se však ukazuje jako přesnější než jakákoli jiná podobná metoda.

Výsledky úprav obrázku přirozeným jazykem pomocí Instruct Pix2Pic, LGIE, MGIE společnosti Apple a Ground Truth Image: Apple

Výsledky úprav obrázku přirozeným jazykem pomocí Instruct Pix2Pic, LGIE, MGIE společnosti Apple a Ground Truth Image: Apple


Kromě generativní umělé inteligence umí nástroj Apple MGIE provádět i další běžné úlohy úprav obrázků, jako je třídění barev, změna velikosti, otáčení, změny stylu a kreslení náčrtků.

Proč by ho Apple dělal jako open source?

Výstupy společnosti Apple s otevřeným zdrojovým kódem jsou jasným strategickým krokem – s rozsahem přesahujícím pouhé licenční požadavky.

K vytvoření MGIE používá Apple open-source modely, jako jsou Llava a Vicuna. Vzhledem k licenčním požadavkům těchto modelů, které omezují komerční využití velkými korporátními subjekty, byla společnost Apple pravděpodobně nucena sdílet svá vylepšení otevřeně na GitHubu.

To však společnosti Apple také umožňuje využívat celosvětovou skupinu vývojářů ve snaze zvýšit svou sílu a flexibilitu. Tento druh spolupráce posouvá věci kupředu mnohem rychleji, než kdyby Apple pracoval zcela samostatně a začínal od nuly. Navíc tato otevřenost inspiruje širší spektrum nápadů a přitahuje různorodé technické talenty, což umožňuje rychlejší vývoj MGIE.

Zapojení Applu do open-source komunity v rámci projektů, jako je MGIE, také podporuje značku mezi vývojáři a technickými nadšenci. Tento aspekt není žádným tajemstvím, protože Meta i Microsoft do open-source AI intenzivně investují.

Je možné, že uvolnění MGIE jako softwaru s otevřeným zdrojovým kódem poskytne společnosti Apple náskok při stanovování stále se vyvíjejících průmyslových standardů pro umělou inteligenci a zejména pro úpravy obrázků na bázi umělé inteligence. Díky MGIE Apple pravděpodobně poskytl umělcům a vývojářům v oblasti umělé inteligence solidní základ, na kterém mohou vybudovat další velkou věc, která bude poskytovat větší přesnost a efektivitu než to, co je k dispozici jinde.

MGIE jistě zlepší produkty společnosti Apple: nebylo by příliš obtížné syntetizovat hlasový příkaz zaslaný Siri a použít tento text k úpravě fotografie v chytrém telefonu, počítači nebo náhlavní soupravě innersive uživatele.

Technicky zdatní vývojáři umělé inteligence mohou MGIE používat již nyní. Stačí navštívit repozitář projektu na GitHubu.

Related Posts

Leave a Comment