Home » O método de personalização de imagens de IA da Nvidia cabe numa disquete e demora 4 minutos a treinar

O método de personalização de imagens de IA da Nvidia cabe numa disquete e demora 4 minutos a treinar

by Thomas

Na paisagem em rápida evolução das ferramentas de criação de arte com IA, os investigadores da Nvidia introduziram um novo método inovador de personalização de texto para imagem chamado Perfusion. Mas não se trata de um modelo super pesado de um milhão de dólares como os seus concorrentes. Com um tamanho de apenas 100 KB e um tempo de treino de 4 minutos, o Perfusion permite uma flexibilidade criativa significativa na representação de conceitos personalizados, mantendo a sua identidade.

A Perfusion foi apresentada num trabalho de investigação criado pela Nvidia e pela Universidade de Tel-Aviv em Israel. Apesar do seu pequeno tamanho, é capaz de superar os métodos de ajuste utilizados pelos principais geradores de arte de IA, como o Stable Diffusion v1.5 da Stability AI, o recém-lançado Stable Diffusion XL (SDXL) e o MidJourney em termos de eficiência de edições específicas.

Imagem: Nvidia Research

Imagem: Nvidia Research


A principal ideia nova em Perfusion é chamada de “Key-Locking”. Isto funciona ligando novos conceitos que um utilizador pretende adicionar, como um gato ou uma cadeira específicos, a uma categoria mais geral durante a geração de imagens. Por exemplo, o gato seria ligado à ideia mais alargada de um “felino”.

Isto ajuda a evitar o sobreajuste, que é quando o modelo fica demasiado ajustado aos exemplos de treino exactos. O ajuste excessivo torna difícil para a IA gerar novas versões criativas do conceito.
Ao associar o novo gato à noção geral de um felino, o modelo pode retratar o gato em muitas poses, aparências e ambientes diferentes. Mas ainda mantém a “catness” essencial que faz com que se pareça com o gato pretendido, e não com qualquer felino aleatório.

Assim, em termos simples, o Key-Locking permite que a IA retrate de forma flexível conceitos personalizados, mantendo a sua identidade central. É como dar as seguintes instruções a um artista: “Desenha o meu gato Tom, enquanto dorme, brinca com fios e cheira flores. “

Porque é que a Nvidia pensa que menos é mais

A

Perfusion também permite que vários conceitos personalizados sejam combinados numa única imagem com interacções naturais, ao contrário das ferramentas existentes que aprendem conceitos isoladamente. Os utilizadores podem orientar o processo de criação de imagens através de mensagens de texto, combinando conceitos como um gato e uma cadeira específicos.

A Perfusion oferece uma caraterística notável que permite aos utilizadores controlar o equilíbrio entre a fidelidade visual (a imagem) e o alinhamento textual (a mensagem) durante a inferência, ajustando um único modelo de 100KB. Esta capacidade permite que os utilizadores explorem facilmente a frente de Pareto (semelhança de texto vs. semelhança de imagem) e seleccionem a melhor solução de compromisso que se adapta às suas necessidades específicas, tudo isto sem a necessidade de voltar a treinar. É importante notar que o treino de um modelo requer alguma delicadeza. Concentrar-se demasiado na reprodução do modelo leva a que este produza o mesmo resultado vezes sem conta e obrigá-lo a seguir o prompt demasiado de perto, sem liberdade, produz normalmente um mau resultado. A flexibilidade para ajustar a proximidade do gerador em relação ao pedido é uma parte importante da personalização

Outros geradores de imagens de IA têm formas de os utilizadores afinarem os resultados, mas são volumosos. Como referência, um LoRA é um método popular de ajuste fino usado na Difusão Estável. Pode adicionar desde dezenas de megabytes a mais de um gigabyte (GB) à aplicação. Outro método, os embeddings de inversão textual, são mais leves mas menos precisos. Um modelo treinado com o Dreambooth, a técnica mais precisa atualmente, pesa mais de 2 GB.

Imagem: Nvidia Research

Imagem: Nvidia Research


Em comparação, a Nvidia afirma que a Perfusion produz uma qualidade visual superior e um alinhamento com as instruções em relação às principais técnicas de IA mencionadas anteriormente. O tamanho ultra-eficiente permite atualizar apenas as partes necessárias quando se afina a forma como se produz uma imagem, em comparação com a pegada de vários GB dos métodos que afinam todo o modelo.
Esta investigação alinha-se com o foco crescente da Nvidia na IA. As ações da empresa subiram mais de 230% em 2023, já que suas GPUs continuam a dominar os modelos de IA de treinamento. Com entidades como Anthropic, Google, Microsoft e Baidu despejando bilhões em IA generativa, o modelo inovador de Perfusão da Nvidia pode lhe dar uma vantagem.

Por enquanto, a Nvidia apenas apresentou o trabalho de investigação, prometendo lançar o código em breve.

Related Posts

Leave a Comment