Home » Confronto de arte de IA: Como as principais ferramentas MidJourney, Stable Diffusion v1.5 e SDXL se comparam

Confronto de arte de IA: Como as principais ferramentas MidJourney, Stable Diffusion v1.5 e SDXL se comparam

by Tim

A era da arte gerada por IA está bem encaminhada e três titãs surgiram como ferramentas favoritas dos criadores digitais: O novo SDXL da Stability AI, o seu bom e velho Stable Diffusion v1.5 e o seu principal concorrente: MidJourney.

O Dall-E da OpenAI iniciou esta revolução, mas a sua falta de desenvolvimento e o facto de ser de código fechado fazem com que o Dall-E 2 não se destaque em nenhuma categoria face aos seus concorrentes. No entanto, tal como o TCN noticiou há alguns dias, esta situação poderá mudar no futuro, uma vez que a openAI está a testar uma nova versão do Dall-E que, segundo consta, é competente e produz peças excepcionais.

Com pontos fortes e limitações únicas, escolher a ferramenta certa entre as principais plataformas é fundamental. Vamos ver como estas tecnologias de arte generativa se comparam em termos de capacidades, requisitos, estilo e beleza.

MidJourney: a droga de entrada para a arte de IA

Théâtre d'Opéra Spatial, uma imagem Midjourney que ganhou o primeiro prémio num concurso de arte digital

Théâtre d’Opéra Spatial, uma imagem Midjourney que ganhou o primeiro prémio num concurso de arte digital


Como o mais fácil de utilizar do trio, o MidJourney torna a arte de IA acessível mesmo a utilizadores não técnicos – desde que estejam familiarizados com o Discord. A plataforma funciona de forma privada nos servidores da MidJourney, com os utilizadores a interagirem através do chat do Discord. Esta abordagem fechada tem vantagens e desvantagens. O lado positivo é que não é necessário nenhum hardware especializado ou habilidades de IA. Mas a falta de transparência de código aberto em torno do modelo e dos dados de treino do MidJourney torna-o bastante limitado em relação ao que se pode fazer – e impossibilita que os entusiastas o melhorem.

O MidJourney é o mais charmoso do grupo, adorado pelos principiantes pela sua interface Discord de fácil utilização. Basta enviar uma mensagem de texto ao bot e voilá, tens uma obra-prima estética em minutos. O senão? A 96 dólares por ano, é um preço elevado para uma IA que não pode ser personalizada ou executada localmente. Mas, pelo menos, vai parecer artístico (e nerd) nas festas!

Em termos funcionais, o MidJourney produz imagens rapidamente com base em instruções de texto, com uma coesão estética impressionante. Mas se nos aprofundarmos num assunto específico, o resultado torna-se mais estranho. O MidJourney gosta de dar o seu próprio toque a cada criação, mesmo que não seja o que o autor imaginou. Por isso, a maior parte das imagens pode estar saturada com um contraste exagerado e tende a ser mais fotorrealista do que realista, ao ponto de, passado algum tempo, as pessoas começarem a identificar as imagens criadas com o MidJourney com base nas suas características estéticas.

Com o MidJourney, a sua liberdade criativa também é limitada pelas regras de conteúdo rigorosas da plataforma. É agressivamente censurada, tanto a nível social (em termos de representação de nudez ou violência) como político (em termos de tópicos controversos e líderes específicos). De um modo geral, o MidJourney oferece uma porta de entrada tentadora para a arte da IA – mas os utilizadores experientes vão querer mais controlo e personalização. É aí que o Stable Diffusion entra em ação.

Stable Diffusion v1.5: o ‘Ol’ Reliable’ da arte da IA

Imagem sem título criada pelo utilizador ThaiTvNews utilizando um modelo SD v.15 personalizado.

Imagem sem título criada pelo utilizador ThaiTvNews utilizando um modelo SD v.15 personalizado.


Se o MidJourney é um passeio de pónei, o Stable Diffusion v1.5 é o cavalo de batalha fiável. Como um modelo de código aberto que está em desenvolvimento ativo há mais de um ano, o Stable Diffusion v1.5 alimenta muitas das ferramentas de arte de IA mais populares da atualidade, como Leonardo AI, Lexica, Mage Space e todos aqueles geradores de waifu de IA que agora estão disponíveis na loja Google Play.

A comunidade ativa do MidJourney tem iterado no modelo base para criar checkpoints especializados, embeddings e LoRAs focados em tudo, desde estilização anime a paisagens complexas, fotografias hiper-realistas e muito mais. Desvantagens? Bem, está a começar a mostrar a sua idade ao lado dos mais jovens engenheiros de IA.

Ao fazer alguns ajustes, o Stable Diffusion v1.5 pode gerar imagens nítidas e detalhadas, adaptadas à sua visão criativa. A resolução de saída está atualmente limitada a 512×512 ou, por vezes, a 768×768 antes de a qualidade se degradar, mas as técnicas de escalonamento rápido ajudam. A popularidade do upscaling em mosaico também impulsionou a popularidade do modelo, tornando-o capaz de gerar imagens em super-resolução, muito para além do que o MidJourney consegue fazer.

Atualmente, é a única tecnologia que suporta inpainting (alteração de elementos no interior da imagem). Também suporta outpainting (permitir que o modelo expanda a imagem para além da sua moldura). É multidirecional, o que significa que os utilizadores podem expandir a sua imagem tanto no eixo vertical como no horizontal. Também suporta plug-ins de terceiros como roop (utilizado para criar deepfakes), After Detailer (para melhorar rostos e mãos), Open Pose (para imitar uma pose específica) e prompts regionais.

Para executá-lo, os criadores sugerem que você precisará de uma GPU Nvidia RTX série 2000 ou melhor para um desempenho decente, mas a pegada leve do Stable Diffusion v1.5 funciona sem problemas mesmo em placas VRAM de 4 GB. Apesar da sua idade, o apoio robusto da comunidade mantém este OG de arte de IA solidamente no topo do seu jogo.

SDXL: A próxima fronteira da arte de IA

Imagem sem título criada pelo utilizador Buzimage utilizando um modelo SDXL personalizado

Imagem sem título criada pelo utilizador Buzimage utilizando um modelo SDXL personalizado


Se o Stable Diffusion v1.5 é o cavalo de batalha fiável, então o SDXL é o jovem puro-sangue que anda pela pista de corridas. Este modelo potente, também da Stability AI, utiliza codificadores de texto duplos para interpretar melhor os avisos e o seu processo de geração em duas fases consegue uma coerência de imagem superior em resoluções elevadas.

Estas capacidades parecem interessantes, mas também tornam o SDXL um pouco mais difícil de dominar. Um codificador de texto gosta de linguagem natural curta e o outro utiliza o estilo do SD v1.5 de palavras-chave específicas e picotadas para descrever a composição.

A geração em duas fases significa que é necessário um modelo de refinador para colocar os pormenores na imagem principal. É preciso tempo, RAM e poder de computação, mas os resultados são fantásticos.

O SDXL está pronto para chamar a atenção. Suportando quase 3 vezes os parâmetros do Stable Diffusion v1.5, o SDXL está a fazer um grande esforço – gerando imagens com uma resolução quase 50% maior do que a do seu antecessor, sem esforço. Mas esse desempenho de ponta tem um custo: O SDXL requer uma GPU com um mínimo de 6 GB de VRAM, requer ficheiros de modelo maiores e não tem especializações pré-treinadas.

O resultado imediato ainda não está ao nível de um modelo Stable Diffusion bem afinado. No entanto, à medida que a comunidade faz a sua magia de otimização, o potencial do SDXL faz explodir as portas do que é possível com os modelos actuais.

Comparações de resultados

Uma imagem vale mais do que mil palavras, por isso resumimos alguns milhares de frases para tentar comparar diferentes saídas utilizando instruções semelhantes para que possa escolher a que mais lhe agrada. Tenha em atenção que cada modelo requer uma técnica de comando diferente, pelo que, mesmo que não se trate de uma comparação exacta, é um bom ponto de partida.

Para ser mais específico, utilizámos um aviso negativo bastante generalizado para a Difusão Estável, algo de que o MidJourney não precisa realmente. Fora isso, os avisos são os mesmos e os resultados não foram escolhidos a dedo.

  • Prompt: Retrato de um corgi numa bicicleta a atravessar o mar


Comentário: Aqui é apenas uma questão de estilo entre SDXL e MidJourney. Ambos batem o Stable Diffusion v1.5, apesar de este parecer ser o único capaz de criar um cão que “anda” corretamente na bicicleta, ou pelo menos que a usa corretamente.

  • Prompt: A Praça Vermelha à noite


Comentário: MidJourney tentou criar um quadrado vermelho em The Red Square. O SDXL v1.0 é mais nítido, mas o contraste das cores é melhor no SD v.15 (Modelo: Juggernaut v5).

  • Uma professora peituda numa sala de aula futurista


Comentário: O MidJourney recusou-se a gerar uma imagem devido às suas regras de censura. O SDXL é mais rico em pormenores, tendo o cuidado de produzir tanto a professora peituda como a sala de aula futurista. O SD v1.5 concentrou-se mais na professora peituda (o tema. Modelo: Photon v1) e menos nos pormenores do ambiente.

  • Prompt: um cérebro a alimentar uma máquina, jeffrey smith e h.r. giger, altamente detalhado em 4k, por Nishida Shun’ei, poster, ferramenta, épico altamente detalhado, épico cyberpunk, studio muti, bitmap, por Sugimura Jihei


Comentário: Tanto o MidJourney como o SDXL produziram resultados que se mantêm fiéis ao objetivo. O SDXL reproduziu melhor o estilo artístico, enquanto que o MidJourney se concentrou mais em produzir uma imagem esteticamente agradável em vez de recriar o estilo artístico, perdendo também muitos pormenores do tema (por exemplo: a imagem não mostra um cérebro a alimentar uma máquina, mas sim um crânio a alimentar uma máquina).

O futuro da arte generativa

Então, qual é o Monet em formação que deves usar? Sinceramente, não há como errar com nenhuma destas opções. O MidJourney é excelente em termos de usabilidade e coesão estética. O Stable Diffusion v1.5 oferece personalização e suporte da comunidade. E o SDXL ultrapassa os limites da geração de imagens fotorrealistas. Enquanto isso, fique ligado para ver o que Dall-E tem a oferecer.

Não acredite apenas na nossa palavra. O pincel está agora nas suas mãos e a tela em branco está à espera. Pega na tua ferramenta generativa de eleição e começa a criar! Mas, por favor, reduzam ao mínimo as ameaças existenciais à humanidade.

Related Posts

Leave a Comment