Novo gerador de imagens de IA faz mais do que o SDXL com menos

A Stability AI, a empresa por detrás do popular gerador de imagens Stable Diffusion, acaba de lançar mais uma granada na arena altamente competitiva da IA.

O novo Stable Cascade da Stability, alimentado pela nova arquitetura Würstchen de código aberto, oferece uma abordagem altamente eficiente e modular à geração de texto para imagem, equilibrando qualidade, velocidade e adaptabilidade.

A empresa afirma que o modelo atinge um fator de compressão diferente de tudo o que foi visto anteriormente nos modelos tradicionais de difusão estável e é capaz de produzir resultados de maior resolução e detalhes – comparáveis a geradores modernos como o SDXL ou o MidJourney (que normalmente funcionam com resoluções de 1024×1024).

Imagem: Stability AI

Ingredientes da Würstchen

O Stable Cascade adopta um processo de três fases, diferente do tradicional processo de difusão estável:

Etapa A: O compressor de imagens: Ao contrário dos modelos típicos, este estágio inicial processa imagens como quebra-cabeças avançados. Empregando uma Vetor-Quantized Generative Adversarial Network (VQGAN), a imagem é cortada em secções compactas de 256×256. Cada secção recebe um “token” discreto de um livro de códigos especializado. Este passo abre caminho para um processamento extremamente rápido nas fases seguintes.
Fase C: O gerador de latente condicional de texto A fase C concentra-se apenas no processamento de instruções baseadas em texto e na produção de latentes comprimidas. Esta abordagem de geração de texto desacoplada reduz drasticamente a complexidade e o custo do ajuste fino para casos de uso específicos.

Imagem: Stability AI

Por outras palavras, faz o que o seu nome sugere. Começa com um gerador de texto que produz pequenos instantâneos de imagens, que são inflacionados numa imagem mais detalhada e, em seguida, devidamente apresentados aos seus olhos como uma imagem de alta qualidade e resolução total.

Vantagens modulares

O design modular do Stable Cascade traz várias vantagens atraentes, de acordo com os seus criadores. A primeira é a extrema eficiência: devido ao espaço latente comprimido (a forma como uma IA avalia a composição da imagem em oposição ao espaço de píxeis, que é o que os humanos vêem) e ao modelo Stage C concentrado, o Stable Cascade atinge tempos de inferência mais rápidos, o que significa que calcula as suas previsões mais rapidamente. E fá-lo com requisitos de hardware significativamente reduzidos em comparação com modelos Stable Diffusion maiores, como o SDXL.

Os testes internos da Stability AI demonstraram a capacidade do Stable Cascade para superar consistentemente modelos comparáveis como o SDXL em termos de qualidade de imagem e atração estética. Além disso, o modelo alcança esses resultados em velocidades muito altas, exigindo significativamente menos recursos computacionais.

Imagem: Estabilidade AI

Uma outra vantagem que a IA de estabilidade reivindica é a sua versatilidade. Muitas das ferramentas que os artistas da Stable Diffusion utilizam atualmente para aperfeiçoar o seu trabalho – como ControlNets ou LoRas – são compatíveis. E, devido à sua extrema eficiência, os utilizadores podem adicionar mais ferramentas aos seus fluxos de trabalho sem colapsar as suas memórias.

A arquitetura leve do modelo, a menor pegada do modelo e a compatibilidade com hardware de computação menos potente reduzem a barreira à entrada, aumentando a acessibilidade de técnicas avançadas de geração de texto para imagem tanto para utilizadores casuais como para investigadores.

Fazendo mais com menos

Os nossos testes revelaram que o modelo é exato e detalhado e não apresenta a estética desbotada e emborrachada dos anteriores modelos SDXL turbo ou LCM da Stability AI. Em vez disso, gera imagens altamente detalhadas a par dos modelos SDXL aperfeiçoados.

Também tem algumas capacidades básicas de geração de texto, que podem ser melhoradas com LoRAs que já estão disponíveis em repositórios online como o Civitai.

A Stability AI relata que, apesar de alojar mais parâmetros do que o Stable Diffusion XL, o Stable Cascade continua a ter tempos de inferência mais rápidos e é excelente no alinhamento imediato.

O ajuste fino do Stable Cascade também consome menos recursos em comparação com modelos Stable Diffusion de tamanho semelhante. Os investigadores e entusiastas podem potencialmente treinar o modelo em conjuntos de dados mais pequenos e com consideravelmente menos poder de computação, o que o torna muito económico.

O Stable Cascade é lançado sob uma licença de investigação não comercial e está prontamente disponível no repositório GitHub da Stability AI com um fluxo de trabalho ComfyUI mantido pela comunidade já disponível que descarrega automaticamente os modelos para uma maior facilidade de utilização.

Novo gerador de imagens de IA faz mais do que o SDXL com menos

Ingredientes da Würstchen

Vantagens modulares

Fazendo mais com menos

Temporada de pontos: Quem está ganhando as guerras do mercado NFT em Ethereum, Solana e Bitcoin?

BlackRock Bitcoin ETF ganha 500 milhões de dólares com o aumento do apetite de Wall Street pelo BTC

Related Posts

Leave a Comment Cancel Reply