Home » Apple schudt open-source AI op met MGIE Image Editor

Apple schudt open-source AI op met MGIE Image Editor

by v

Nadat Apple het afgelopen jaar aan de zijlijn leek te staan, begint het nu de boel op te schudden op het gebied van kunstmatige intelligentie en open source AI in het bijzonder.

De techgigant uit Cupertino is een samenwerking aangegaan met de Universiteit van Santa Barbara om een AI-model te ontwikkelen dat afbeeldingen kan bewerken op basis van natuurlijke taal, op dezelfde manier waarop mensen communiceren met ChatGPT. Apple noemt het Multimodal Large-Language Model-Guided Image Editing (MGIE).

MGIE interpreteert tekstinstructies van gebruikers en verwerkt en verfijnt deze om precieze beeldbewerkingsopdrachten te genereren. De integratie van een diffusiemodel verbetert het proces, waardoor MGIE bewerkingen kan toepassen op basis van de kenmerken van de originele afbeelding.

Multimodale Large Language Models (MLLM’s), die zowel tekst als afbeeldingen kunnen verwerken, vormen de basis van de MGIE-methode. In tegenstelling tot traditionele single-mode AI’s die zich alleen op tekst of afbeeldingen richten, kunnen MLLM’s complexe instructies verwerken en in een breder scala aan situaties werken. Een model kan bijvoorbeeld een tekstinstructie begrijpen, de elementen van een specifieke foto analyseren, vervolgens iets uit de afbeelding halen en een nieuwe foto maken zonder dat element.

Om deze acties uit te voeren, moet een AI-systeem verschillende capaciteiten hebben, waaronder generatieve tekst, generatieve afbeelding, segmentatie en CLIP-analyse, allemaal in hetzelfde proces.

De introductie van MGIE brengt Apple dichter bij het bereiken van mogelijkheden die vergelijkbaar zijn met ChatGPT Plus van OpenAI, waarmee gebruikers conversaties kunnen aangaan met AI-modellen om aangepaste afbeeldingen te maken op basis van tekstinvoer. Met MGIE kunnen gebruikers gedetailleerde instructies geven in natuurlijke taal – “verwijder de verkeerskegel van de voorgrond” – die worden vertaald naar beeldbewerkingsopdrachten en uitgevoerd.

Met andere woorden, gebruikers kunnen beginnen met een foto van een blond persoon en deze veranderen in een roodharige door simpelweg te zeggen “maak van deze persoon een roodharige”. Onder de motorkap begrijpt het model de instructie, segmenteert het haar van de persoon, genereert een opdracht zoals “rood haar, zeer gedetailleerd, fotorealistisch, roodbruine tint” en voert vervolgens de wijzigingen uit via inpainting.

De benadering van Apple sluit aan bij bestaande tools zoals Stable Diffusion, die kunnen worden uitgebreid met een rudimentaire interface voor tekstgestuurde beeldbewerking. Door gebruik te maken van tools van derden, zoals Pix2Pix, kunnen gebruikers communiceren met de interface van Stable Diffusion door middel van commando’s in natuurlijke taal.

De benadering van Apple blijkt echter nauwkeuriger dan alle andere vergelijkbare methoden.

Resultaten van het bewerken van een afbeelding met natuurlijke taal met behulp van Instruct Pix2Pic, LGIE, Apple's MGIE en Ground Truth Image: Apple

Resultaten van het bewerken van een afbeelding met natuurlijke taal met behulp van Instruct Pix2Pic, LGIE, Apple’s MGIE en Ground Truth Image: Apple


De open-source uitstapjes van Apple zijn een duidelijke strategische zet, met een reikwijdte die verder gaat dan alleen licentievereisten.

Om MGIE te bouwen, gebruikt Apple open-source modellen zoals Llava en Vicuna. Vanwege de licentievoorwaarden van deze modellen, die commercieel gebruik door grote bedrijven beperken, was Apple waarschijnlijk gedwongen om zijn verbeteringen openlijk te delen op GitHub.

Maar dit stelt Apple ook in staat om gebruik te maken van een wereldwijde pool van ontwikkelaars in een poging om zijn kracht en flexibiliteit te vergroten. Dit soort samenwerking brengt dingen veel sneller vooruit dan wanneer Apple helemaal alleen werkt en vanaf nul begint. Bovendien inspireert deze openheid een breder spectrum aan ideeën en trekt het divers technisch talent aan, waardoor MGIE zich sneller kan ontwikkelen.

De betrokkenheid van Apple bij de open-source gemeenschap met projecten als MGIE geeft het merk ook een boost onder ontwikkelaars en tech-enthousiastelingen. Dit aspect is geen geheim, aangezien Meta en Microsoft beide zwaar investeren in open-source AI.

Het is mogelijk dat het uitbrengen van MGIE als open-source software Apple een voorsprong geeft in het bepalen van nog steeds ontwikkelende industriestandaarden voor AI en AI-gebaseerde beeldbewerking in het bijzonder. Met MGIE heeft Apple AI-kunstenaars en -ontwikkelaars waarschijnlijk een solide basis gegeven om het volgende grote project op te bouwen, dat nauwkeuriger en efficiënter is dan wat elders beschikbaar is.

MGIE zal de producten van Apple zeker beter maken: het zou niet al te moeilijk zijn om een spraakcommando dat naar Siri wordt gestuurd te synthetiseren en die tekst te gebruiken om een foto te bewerken op de smartphone, computer of innersive headset van de gebruiker.

Technisch onderlegde AI-ontwikkelaars kunnen MGIE nu al gebruiken. Bezoek gewoon de GitHub repository van het project.

Related Posts

Leave a Comment