Home » Apple разклаща AI с отворен код с редактор на изображения MGIE

Apple разклаща AI с отворен код с редактор на изображения MGIE

by v

След като изглеждаше, че през по-голямата част от миналата година Apple е встрани, тя започва да разтърсва нещата в областта на изкуствения интелект – и по-специално на изкуствения интелект с отворен код.

Технологичният гигант от Купертино си партнира с университета в Санта Барбара за разработване на модел на ИИ, който може да редактира изображения на базата на естествен език, по същия начин, по който хората взаимодействат с ChatGPT. Apple го нарича Multimodal Large-Language Model-Guided Image Editing (MGIE).

MGIE интерпретира текстови инструкции, предоставени от потребителите, като ги обработва и усъвършенства, за да генерира точни команди за редактиране на изображения. Интегрирането на дифузионен модел подобрява процеса, като позволява на MGIE да прилага редакции въз основа на характеристиките на оригиналното изображение.

Мултимодалните големи езикови модели (MLLM), които могат да обработват както текст, така и изображения, са в основата на метода MGIE. За разлика от традиционните еднорежимни изкуствени интелекти, които се фокусират единствено върху текст или изображения, MLLM могат да обработват сложни инструкции и да работят в по-широк спектър от ситуации. Например моделът може да разбере текстова инструкция, да анализира елементите на конкретна снимка, след което да извади нещо от изображението и да създаде нова снимка без този елемент.

За да извърши тези действия, системата за изкуствен интелект трябва да разполага с различни възможности, включително генериране на текст, генериране на изображение, сегментиране и анализ на CLIP – всички в един и същи процес.

Въвеждането на MGIE доближава Apple до постигането на възможности, подобни на ChatGPT Plus на OpenAI, позволяващи на потребителите да влизат в разговорни взаимодействия с модели на ИИ, за да създават персонализирани изображения въз основа на въведен текст. С помощта на MGIE потребителите могат да дават подробни инструкции на естествен език – „премахни конуса от предния план“ – които се превеждат в команди за редактиране на изображения и се изпълняват.

С други думи, Потребителите могат да започнат със снимка на блондинка и да я превърнат в руса, само като кажат: „направете този човек червенокос“. Под капака моделът ще разбере инструкцията, ще сегментира косата на лицето, ще генерира команда като „червена коса, много детайлна, фотореалистична, рижав тон“ и след това ще изпълни промените чрез инпайнтинг.

Подходът на Apple е в съответствие със съществуващите инструменти като Stable Diffusion, които могат да бъдат допълнени с елементарен интерфейс за редактиране на изображения с помощта на текст. Използвайки инструменти на трети страни като Pix2Pix, потребителите могат да взаимодействат с интерфейса на Stable Diffusion с помощта на команди на естествен език, като наблюдават ефекти в реално време върху редактираните изображения.

Подходът на Apple обаче се оказва по-точен от всеки друг подобен метод.

Резултати от редактиране на изображение с естествен език с помощта на Instruct Pix2Pic, LGIE, MGIE на Apple и Ground Truth Image: Apple

Резултати от редактиране на изображение с естествен език с помощта на Instruct Pix2Pic, LGIE, MGIE на Apple и Ground Truth Image: Apple


Освен генеративен изкуствен интелект, Apple MGIE може да изпълнява и други конвенционални задачи за редактиране на изображения, като например цветови настройки, промяна на размера, ротации, промени в стила и скициране.

Защо Apple ще го направи с отворен код?

Походите на Apple с отворен код са ясен стратегически ход – с обхват отвъд обикновените изисквания за лицензиране.

За създаването на MGIE Apple използва модели с отворен код като Llava и Vicuna. Поради лицензионните изисквания на тези модели, които ограничават търговската употреба от големи корпоративни структури, Apple вероятно е била принудена да сподели своите подобрения открито в GitHub.

Но това също така позволява на Apple да използва световния резерв от разработчици в стремежа си да увеличи своята сила и гъвкавост. Този вид сътрудничество придвижва нещата напред много по-бързо, отколкото Apple да работи изцяло самостоятелно и да започне от нулата. Освен това тази отвореност вдъхновява по-широк спектър от идеи и привлича разнообразни технически таланти, което позволява на MGIE да се развива по-бързо.

Участието на Apple в общността с отворен код с проекти като MGIE също така дава тласък на марката сред разработчиците и техническите ентусиасти. Този аспект не е тайна, тъй като Meta и Microsoft инвестират усилено в AI с отворен код.

Възможно е пускането на MGIE като софтуер с отворен код да даде на Apple преднина в определянето на все още развиващите се индустриални стандарти за ИИ и по-специално за редактиране на изображения, базирано на ИИ. С MGIE Apple вероятно е предоставила на художниците и разработчиците на изкуствен интелект солидна основа, с която да създадат следващото голямо нещо, осигурявайки по-голяма точност и ефективност от това, което се предлага другаде.

MGIE със сигурност ще направи продуктите на Apple по-добри: няма да е твърде трудно да се синтезира гласова команда, изпратена до Siri, и да се използва този текст за редактиране на снимка на смартфона, компютъра или слушалките innersive на потребителя.

Разработчиците на изкуствен интелект, които са технически грамотни, могат да използват MGIE още сега. Просто посетете хранилището на проекта в GitHub.

Related Posts

Leave a Comment