Home » Apple agita a IA de código aberto com o editor de imagens MGIE

Apple agita a IA de código aberto com o editor de imagens MGIE

by v

Depois de ter estado aparentemente à margem durante a maior parte do ano passado, a Apple está a começar a agitar as coisas no campo da inteligência artificial – e da IA de código aberto em particular.

O gigante tecnológico de Cupertino estabeleceu uma parceria com a Universidade de Santa Barbara para desenvolver um modelo de IA capaz de editar imagens com base na linguagem natural, da mesma forma que as pessoas interagem com o ChatGPT. A Apple chama-lhe Edição Multimodal de Imagens Guiada por Modelos de Linguagem Grande (MGIE).

O MGIE interpreta instruções de texto fornecidas pelos utilizadores, processando-as e refinando-as para gerar comandos de edição de imagem precisos. A integração de um modelo de difusão melhora o processo, permitindo à MGIE aplicar edições com base nas características da imagem original.

Os modelos multimodais de grande linguagem (MLLM), que podem processar tanto texto como imagens, constituem a base do método MGIE. Ao contrário das IA tradicionais de modo único que se concentram apenas em texto ou imagens, os MLLM podem processar instruções complexas e trabalhar numa gama mais vasta de situações. Por exemplo, um modelo pode compreender uma instrução de texto, analisar os elementos de uma fotografia específica, retirar algo da imagem e criar uma nova fotografia sem esse elemento.

Para realizar estas acções, um sistema de IA deve ter diferentes capacidades, incluindo texto generativo, imagem generativa, segmentação e análise CLIP, tudo no mesmo processo.

A introdução do MGIE aproxima a Apple das capacidades do ChatGPT Plus da OpenAI, que permite aos utilizadores interagir com modelos de IA para criar imagens personalizadas com base em texto. Com o MGIE, os utilizadores podem dar instruções detalhadas em linguagem natural – “remover o cone de trânsito do primeiro plano” – que são traduzidas em comandos de edição de imagem e executadas.

Por outras palavras, os utilizadores podem começar com uma fotografia de uma pessoa loira e transformá-la numa ruiva, dizendo apenas: “faça desta pessoa uma ruiva”. O modelo compreenderia a instrução, segmentaria o cabelo da pessoa, geraria um comando como “cabelo ruivo, altamente detalhado, fotorrealista, tom de ruivo” e, em seguida, executaria as alterações através da pintura.

A abordagem da Apple alinha-se com ferramentas existentes como a Stable Diffusion, que pode ser aumentada com uma interface rudimentar para edição de imagens guiada por texto. Aproveitando ferramentas de terceiros como o Pix2Pix, os utilizadores podem interagir com a interface do Stable Diffusion utilizando comandos de linguagem natural, testemunhando efeitos em tempo real nas imagens editadas.

A abordagem da Apple, no entanto, revela-se mais precisa do que qualquer outro método semelhante.

Resultados da edição de uma imagem com linguagem natural utilizando o Instruct Pix2Pic, LGIE, MGIE da Apple e Ground Truth Image: Apple

Resultados da edição de uma imagem com linguagem natural utilizando o Instruct Pix2Pic, LGIE, MGIE da Apple e Ground Truth Image: Apple


Para além da IA generativa, o MGIE da Apple pode executar outras tarefas convencionais de edição de imagens, como correção de cores, redimensionamento, rotações, alterações de estilo e esboços.

Porque é que a Apple o tornaria open source?

As incursões de código aberto da Apple são um movimento estratégico claro – com um âmbito para além dos meros requisitos de licenciamento.

Para construir o MGIE, a Apple utiliza modelos de código aberto como o Llava e o Vicuna. Devido aos requisitos de licenciamento destes modelos, que limitam a utilização comercial por grandes empresas, a Apple foi provavelmente obrigada a partilhar os seus melhoramentos abertamente no GitHub.

Mas isto também permite à Apple tirar partido de um conjunto mundial de programadores numa tentativa de aumentar a sua força e flexibilidade. Este tipo de colaboração faz avançar as coisas muito mais rapidamente do que se a Apple trabalhasse inteiramente sozinha e começasse do zero. Além disso, esta abertura inspira um espetro mais vasto de ideias e atrai diversos talentos técnicos, permitindo que a MGIE evolua mais rapidamente.

O envolvimento da Apple na comunidade de código aberto com projectos como o MGIE também dá à marca um impulso entre os programadores e os entusiastas da tecnologia. Este aspeto não é segredo, com a Meta e a Microsoft a investirem fortemente na IA de código aberto.

É possível que o lançamento do MGIE como software de código aberto dê à Apple uma vantagem inicial no estabelecimento de padrões industriais ainda em evolução para IA e edição de imagem baseada em IA em particular. Com o MGIE, a Apple deu provavelmente aos artistas e programadores de IA uma base sólida para construírem a próxima grande novidade, proporcionando mais precisão e eficiência do que o que está disponível noutros locais.

A MGIE irá certamente melhorar os produtos da Apple: não seria muito difícil sintetizar um comando de voz enviado para a Siri e utilizar esse texto para editar uma fotografia no smartphone, computador ou auscultadores innersive do utilizador.

Os programadores de IA com conhecimentos técnicos podem utilizar o MGIE agora mesmo. Basta visitar o repositório GitHub do projeto.

Related Posts

Leave a Comment