A OpenAI tem estado a testar em privado uma nova iteração do seu modelo de geração de imagens de inteligência artificial (IA) nos últimos meses, e as primeiras amostras divulgadas pelo YouTuber MattVidPro mostram que supera os geradores de imagens anteriores.
“Extremamente empolgante – isto é uma explosão de tudo o que já vimos antes, é de loucos”, disse Matt numa antevisão que publicou no YouTube. “O Midjourney não pode competir a este nível – acho que nem a versão seis do Midjourney seria capaz de competir a este nível”.
No entanto, não espere experimentá-lo tão cedo. O acesso é extremamente limitado.
O modelo inédito é provavelmente uma atualização do DALL-E 2 e está a ser testado através de uma pré-visualização apenas para convidados no ChatGPT-4. Matt disse que apenas cerca de 400 pessoas em todo o mundo têm acesso a este novo gerador de imagens OpenAI.
Enquanto os geradores de imagens actuais têm dificuldade em obter mãos coerentes, os exemplos mostraram mãos realistas e com proporções adequadas. Os fundos também pareceram mais convincentes do que os sistemas de IA concorrentes.
Aparentemente, a OpenAI removeu os seus filtros de segurança para testar todo o potencial do modelo. Os utilizadores afirmaram que o modelo pode gerar conteúdos violentos e nudez sem hesitação. No entanto, conhecendo a posição da OpenAI em relação a conteúdos NSFW, é altamente improvável que uma versão pública oficial seja lançada sob tais padrões.
“É a OpenAI, por isso pode apostar que eles vão controlar esta coisa como fazem com tudo antes de a lançarem”, observou Matt.
Alguns especialistas criticaram a OpenAI por “emburrecer” os seus modelos para evitar potenciais controvérsias. Alguns estudos sugerem mesmo que a OpenAI treinou o ChatGPT para ter uma forte tendência política nos seus resultados.
No entanto, a qualidade consistente demonstrada nas amostras é um salto em frente. Destaca os esforços contínuos da OpenAI para melhorar as capacidades de IA generativa. A empresa pode revelar mais sobre o seu progresso ainda este ano, especialmente se o campo do reconhecimento e geração de imagens ajudar a melhorar a robustez do seu produto estrela: um GPT-4 multimodal capaz de compreender texto, imagens e rascunhos num só comando.
Por enquanto, a tecnologia continua confinada a testes fechados com um número minúsculo de utilizadores.
À medida que os modelos vão sendo aperfeiçoados, a fronteira entre o artificial e o real vai-se esbatendo ainda mais. Embora isto entusiasme muitos, as preocupações com a utilização incorrecta persistirão. Construir esta tecnologia de forma responsável continua a ser um desafio urgente.