Home » Apple встряхивает открытый ИИ с помощью редактора изображений MGIE

Apple встряхивает открытый ИИ с помощью редактора изображений MGIE

by v

После того как большую часть прошлого года компания Apple, казалось, оставалась в стороне, она начинает встряхивать ситуацию в области искусственного интеллекта и, в частности, ИИ с открытым исходным кодом.

Технологический гигант из Купертино в сотрудничестве с Университетом Санта-Барбары разработал модель искусственного интеллекта, которая может редактировать изображения на основе естественного языка — так же, как люди взаимодействуют с ChatGPT. Apple называет эту технологию Multimodal Large-Language Model-Guided Image Editing (MGIE).

MGIE интерпретирует текстовые инструкции, предоставляемые пользователями, обрабатывает и уточняет их для создания точных команд редактирования изображений. Интеграция диффузионной модели улучшает этот процесс, позволяя MGIE применять правки, основанные на характеристиках исходного изображения.

Мультимодальные модели большого языка (MLLM), которые могут обрабатывать как текст, так и изображения, составляют основу метода MGIE. В отличие от традиционных однорежимных ИИ, ориентированных только на текст или изображения, MLLM могут обрабатывать сложные инструкции и работать в более широком диапазоне ситуаций. Например, модель может понять текстовую инструкцию, проанализировать элементы конкретной фотографии, затем убрать что-то из изображения и создать новую фотографию без этого элемента.

Для выполнения этих действий система искусственного интеллекта должна обладать различными возможностями, включая генерацию текста, генерацию изображения, сегментацию и CLIP-анализ, причем в одном и том же процессе.

Внедрение MGIE приближает Apple к достижению возможностей, аналогичных ChatGPT Plus от OpenAI, позволяющих пользователям вступать в разговорное взаимодействие с моделями ИИ для создания индивидуальных изображений на основе введенного текста. С помощью MGIE пользователи могут давать подробные инструкции на естественном языке — например, «убрать дорожный знак с переднего плана», — которые переводятся в команды редактирования изображения и выполняются.

Другими словами, пользователь может начать с фотографии блондина и превратить его в рыжего, просто сказав: «Сделайте этого человека рыжим». Модель под капотом поймет инструкцию, сегментирует волосы человека, сгенерирует команду типа «рыжие волосы, высокодетализированные, фотореалистичные, рыжий тон», а затем выполнит изменения через рисование.

Подход Apple совпадает с существующими инструментами, такими как Stable Diffusion, которые могут быть дополнены рудиментарным интерфейсом для редактирования изображений с помощью текста. Используя сторонние инструменты, такие как Pix2Pix, пользователи могут взаимодействовать с интерфейсом Stable Diffusion с помощью команд на естественном языке, наблюдая в реальном времени эффекты на отредактированных изображениях.

При этом подход Apple оказывается более точным, чем любой другой аналогичный метод.

Результаты редактирования изображения с помощью естественного языка с использованием инструкций Pix2Pic, LGIE, MGIE от Apple и

Помимо генеративного ИИ, Apple MGIE может выполнять и другие обычные задачи по редактированию изображений, такие как цветокоррекция, изменение размеров, повороты, изменение стиля и создание эскизов.

Зачем Apple делать его с открытым исходным кодом?

Выход Apple с открытым исходным кодом — очевидный стратегический шаг, выходящий за рамки простых лицензионных требований.

Для создания MGIE Apple использует такие модели с открытым исходным кодом, как Llava и Vicuna. Из-за лицензионных требований этих моделей, которые ограничивают коммерческое использование крупными корпорациями, Apple, вероятно, была вынуждена открыто делиться своими улучшениями на GitHub.

Но это также позволяет Apple использовать всемирный пул разработчиков для повышения своей силы и гибкости. Такое сотрудничество позволяет продвигаться вперед гораздо быстрее, чем если бы Apple работала полностью в одиночку и начинала с нуля. Кроме того, такая открытость вдохновляет на более широкий спектр идей и привлекает разнообразные технические таланты, позволяя MGIE развиваться быстрее.

Участие Apple в сообществе open-source проектов, подобных MGIE, также способствует росту популярности бренда среди разработчиков и техноэнтузиастов. Этот аспект не является секретом: компании Meta и Microsoft активно инвестируют в ИИ с открытым исходным кодом.

Возможно, выпуск MGIE в виде открытого программного обеспечения даст Apple фору в установлении все еще развивающихся отраслевых стандартов для ИИ и, в частности, для редактирования изображений на основе ИИ. Выпустив MGIE, Apple, вероятно, предоставила художникам и разработчикам ИИ прочную основу для создания следующей большой вещи, обеспечив большую точность и эффективность по сравнению с тем, что доступно в других местах.

MGIE, безусловно, сделает продукты Apple лучше: не составит труда синтезировать голосовую команду, отправленную Siri, и использовать этот текст для редактирования фотографии на смартфоне, компьютере или гарнитуре innersive пользователя.

Технически подкованные разработчики ИИ могут использовать MGIE прямо сейчас. Для этого достаточно посетить репозиторий проекта на GitHub.

Related Posts

Leave a Comment