Home » Chiefs considera treinador inglês para potencial oferta

Chiefs considera treinador inglês para potencial oferta

by Thomas

A tecnologia de geração de imagens de inteligência artificial (IA) está a acelerar rapidamente – em mais do que um sentido. Os recentes avanços catapultaram a indústria de um progresso constante para avanços incessantes, prometendo agora o advento da criação de imagens de alta fidelidade em tempo real.

Não é que estas ferramentas sejam lentas – um minuto não é demasiado tempo para esperar para “fazer mais”. Mas os utilizadores continuam a exigir mais: mais realismo, mais versatilidade, mais variedade e mais rapidez. E quanto a este último ponto, os investigadores estão a cumprir com prazer.

SDXL carrega no acelerador

O SDXL Turbo, que pode representar um salto monumental na geração de imagens de IA, foi revelado pela Stability AI. Não dizemos isto de ânimo leve: o modelo recentemente anunciado pode gerar imagens num segundo, em vez dos 30 a mais de 60 segundos que os geradores habituais demoram. É quase, se não efetivamente, a geração de imagens de IA em tempo real.

O SDXL Turbo é diferente de todos os modelos anteriores de difusão estável. A tecnologia Adversarial Diffusion Distillation (ADD) é o que torna possível reduzir significativamente o número de passos necessários para gerar imagens de alta qualidade – apenas um passo, quando as imagens normais podem demorar entre 30 e 100 passos. “A tecnologia ADD é o primeiro método para desbloquear a síntese de imagens em tempo real, num único passo, com modelos de fundação”, afirma a Stability AI num documento de investigação.

O SDXL Turbo utiliza um híbrido de formação adversarial e destilação de resultados, optimizando o processo generativo e assegurando que as imagens são produzidas rapidamente, mantendo uma elevada fidelidade.

Como resultado, a introdução do SDXL Turbo permite a produção de imagens complexas e de alta resolução quase instantaneamente. Esta nova abordagem também chama a atenção para os GANs, que foram largamente esquecidos depois de a tecnologia de difusão ter começado a dominar a cena.

Modelos de consistência latente significam eficiência

Se não quiser dizer adeus aos seus modelos de difusão estável “antigos”, no entanto, os investigadores têm uma solução para si.

A acompanhar os avanços do SDXL Turbo estão os modelos de consistência latente (LCMs) e LCM-LoRA, cada um contribuindo de forma única para o campo.

Os LCMs, tal como apresentados no seu artigo de investigação dedicado, destacam-se pela sua capacidade de gerar imagens de alta resolução operando eficientemente no espaço latente de autoencoders pré-treinados como o Stable Diffusion. Os LCMs têm como objetivo aumentar a velocidade de geração de imagens sem uma perda significativa de qualidade, concentrando-se em resultados de alta resolução. Utilizando um método de destilação guiada de uma fase, os LCMs transformam modelos de difusão pré-treinados em geradores de imagens rápidos, saltando etapas desnecessárias.

Em termos práticos, os utilizadores não precisam de alterar mais nada. Basta descarregar o modelo e utilizá-lo como um ponto de controlo normal do SDXL. No entanto, em vez de percorrerem um grande número de passos, podem reduzir o calibre ao mínimo. O modelo produzirá boas imagens com quatro passos num par de segundos, em vez de calcular a geração para 25, 50 ou 75 passos por imagem.

Já existem excelentes modelos com as suas próprias versões LCM para experimentar. Recomendamos o Hephaistos_NextGENXL pela sua versatilidade, mas existem muitos modelos excelentes disponíveis para teste.

LCM-LoRAS: turbinar qualquer modelo

Lançado em conjunto com os LCMs, o LCM-LoRA oferece um módulo de aceleração universal que pode ser integrado em vários modelos de difusão estável. “O LCM-LoRA pode ser visto como um solver PF-ODE neural plug-in com fortes capacidades de generalização”, lê-se no documento de investigação.

O LCM-LoRA foi concebido para aumentar a eficiência dos modelos de difusão estável existentes, tornando-os mais rápidos e mais versáteis. Utiliza LoRA (Low-Rank Adaptation) para atualizar as matrizes de peso pré-treinadas, reduzindo a carga computacional e os requisitos de memória.

Com o LCM-LoRA, os modelos normais de difusão estável registam um enorme aumento nas suas velocidades de geração de imagens, tornando-os altamente eficazes para várias tarefas. Os utilizadores nem sequer precisam de transferir um novo modelo – basta ativar o LCM LoRA e gerar imagens tão rapidamente como um modo LCM…

Qualidade versus velocidade

Apesar destes saltos tecnológicos, mantém-se a necessidade de equilibrar a velocidade e a qualidade da imagem. Embora as ferramentas de geração rápida, como o SDXL Turbo e o LCM-LoRA, acelerem o processo criativo, fazem-no à custa de alguma fidelidade da imagem. Por outras palavras, uma imagem gerada com 50 passos e um bom modelo terá sempre uma maior resolução ou fidelidade de imagem do que uma imagem gerada com 5 passos e um bom modelo LCM.

No entanto, este compromisso é atenuado pela sua utilidade em fluxos de trabalho típicos, em que são geradas inúmeras imagens para encontrar a imagem perfeita. As iterações subsequentes com ferramentas como imagem-a-imagem ou inpaint podem melhorar os detalhes nestas imagens de primeiro corte, compensando qualquer perda inicial de qualidade. Uma imagem corretamente editada gerada com uma destas tecnologias rápidas pode ser tão boa como uma imagem gerada por um modelo normal de difusão estável.

Apertem os cintos, porque o espaço de geração de imagens de IA está a entrar em sobredotação – e poucas pessoas anseiam mais por velocidade do que os fanboys de IA.

Related Posts

Leave a Comment