Home » O novo lançamento do MidJourney V6 actualiza os visuais e aborda a geração de texto (principalmente)

O novo lançamento do MidJourney V6 actualiza os visuais e aborda a geração de texto (principalmente)

by v

A

MidJourney acaba de anunciar o seu mais recente modelo de gerador de imagens de IA, o modelo base V6, na corrida concorrida para dominar o reino da criatividade digital. Lançado hoje para testes alfa, a equipa de desenvolvimento diz que o V6 apresenta uma maior precisão, coerência e – pela primeira vez na evolução do MidJourney – capacidades de geração de texto.

Anunciada num post oficial no Discord, a V6 é considerada uma grande reformulação.

“Seguimento muito mais preciso do prompt, bem como prompts mais longos, coerência aprimorada e conhecimento do modelo”, revela o anúncio, destacando seu avanço em relação ao modelo V5.1 anterior lançado em maio de 2023. O modelo V5, conhecido pelos seus avisos curtos e fáceis de usar e pela melhoria estética, abriu caminho para o V6 mais sofisticado e detalhado.

Um dos componentes mais notáveis do V6 é a sua capacidade de desenho de texto. Embora não seja o ponto fulcral do modelo – a equipa diz que ainda é uma caraterística “menor” – esta capacidade coloca o MidJourney em concorrência direta com outros modelos líderes como o Dall-E 3 e o Ideogram. No entanto, a abordagem do MidJourney à geração de texto é única.

Descrevendo-a como “capacidade de desenho de texto menor”, o Midjourney diz. “Tem de escrever o seu texto entre ‘aspas’ e os valores –style raw ou lower –stylize podem ajudar.”

A TCN conseguiu testar o modelo e compará-lo com o Dall-E 3, conhecido pela sua precisão na geração de texto. O MidJourney parece dar prioridade ao estilo e à estética, por vezes à custa da precisão do texto. Na maioria das vezes, gerou texto impreciso ou nenhum texto. Mas quando o fazia, as imagens eram iguais ou até melhores do que as geradas pelo Dall-E 3, o modelo de IA de texto para imagem que alimenta o ChatGPT e o Microsoft Bing.

Comparando as gerações de texto do MidJourney, Dall-E 3, SDXL com Harrlogos e Ideogram AI, uma recomendação demasiado simplificada poderia ser utilizar o MidJourney se a estética for uma prioridade, o Dall-E 3 para facilidade de utilização e estética de arte digital de desenhos animados, o SDXL para aqueles com conhecimentos avançados de A1111 e o Ideogram AI para resultados em que o texto é mais importante do que a estética.

Atualmente, o MidJourney e o Dalle-3 com ChatGPT custam dinheiro, enquanto o SDXL e o Ideogram AI são gratuitos. A versão do Bing do Dall-E 3 é de utilização gratuita, mas só gera imagens quadradas e as pessoas só podem modificar as mensagens em vez da abordagem de conversação natural adoptada pela OpenAI.

O MidJourney V6 é também um pouco mais lento e mais caro do que o v5, no entanto, a equipa salienta a sua preocupação em acelerar o modelo com o tempo. O modelo V6 também possui upscalers melhorados nos modos “subtil” e “criativo”, melhorando a resolução da imagem em 2x.

Estas características, juntamente com uma gama diversificada de argumentos suportados como –ar (para alterar a resolução), –chaos (para alterar as variações entre gerações), e –stylize (para alterar o grau de criatividade do modelo), oferecem aos utilizadores um amplo espetro de possibilidades criativas. No entanto, outras funcionalidades como inpainting, outpainting e descrição de imagens ainda não estão disponíveis. De acordo com a MidJourney, estas funcionalidades deverão ser actualizadas no próximo mês.

O anúncio apela a que os utilizadores utilizem estes “poderes incríveis com alegria, admiração, responsabilidade e respeito”, o que sempre fez parte do espírito do MidJourney. Mas não fiquem demasiado entusiasmados, pois a censura será mais rigorosa.

“Não seja um idiota ou crie imagens para causar drama”, lê-se no anúncio. É provável que isso bloqueie tentativas de criar waifus digitais ou deepfakes políticos.

Related Posts

Leave a Comment