Embora a IA tenha explodido em cena através de chatbots por vezes assustadoramente inteligentes, as interacções baseadas em texto já são antiquadas. O anúncio da atualização GPT-4 da OpenAI introduziu o GPT-Vision (GPT-V), a mais recente maravilha da IA multimodal. O anúncio tornou-se agora realidade, uma vez que os utilizadores têm finalmente a oportunidade de testar todo o potencial das suas capacidades.
Um modelo multimodal de grande linguagem (LLM) significa que pode interagir não só com a palavra escrita, mas também através de outros modos. Neste caso, o novo GPT-V pode compreender imagens e trabalhar com elas. Além disso, graças à nova ferramenta de arte generativa DALL-E 3, o ChatGPT pode receber imagens como entrada e também gerar imagens como saída.
Estas novas capacidades suscitaram dúvidas em todo o espaço tecnológico, à medida que os utilizadores as testavam. Conseguem descodificar documentos governamentais redigidos sobre avistamentos de OVNIs? Sim. “O ChatGPT-4V Multimodal descodifica um documento governamental redigido sobre um avistamento de OVNI divulgado pela NASA”, diz um tweet. “Talvez a verdade não esteja lá fora; ela está bem aqui no GPT-V. “
ChatGPT-4V Multimodal descodifica um documento governamental redigido sobre um avistamento de OVNI divulgado pela NASA.
Testei isto em centenas de documentos redigidos e posso dizer que estamos num novo mundo. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) 6 de outubro de 2023
Tentar preencher lacunas numa sequência de texto é basicamente o que os LLMs fazem. O utilizador fez a melhor coisa a seguir ao tentar testar as capacidades do GPT-V e fê-lo adivinhar partes de um texto que ele censurou. “Quase 100% de precisão nas intenções”, ele relatou.
É claro que é difícil verificar se o seu palpite sobre o que está obscurecido é exato – não é como se pudéssemos perguntar à CIA como se saiu ao espreitar através das linhas negras.
Ainda mais difícil do que descobrir informações que foram censuradas pelo governo é tentar entender a caligrafia enigmática do seu médico. Mas o GPT-V pode descriptografar os rabiscos. Com um simples toque, o GPT-V pode dar sentido até mesmo às notas mais indecifráveis do médico, garantindo que “tomar dois comprimidos” não se torne “fazer waffles azuis”.
ChatGPT-4V Multimodal.
Prompt: “Por favor, descodifique este documento. Vamos pensar passo a passo. É vital que seja exato. Obrigado” pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) 6 de outubro de 2023
E para aqueles que não confiam nos seus médicos, o ChatGPT pode fornecer uma segunda opinião instantânea. O modelo é capaz de compreender raios X e fornecer análises e conhecimentos sobre casos médicos específicos.
Um caso de utilização subestimado do ChatGPT Vision.
São necessários 13 anos de formação para ser radiologista.
Agora, em vez de redigir um relatório de raiz, provavelmente só precisam de rever o diagnóstico da IA. pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) 2 de outubro de 2023
Mas porquê ficar-se pela caligrafia e pelo scanner corporal? O GPT-V tornou-se o mais recente guru do fitness em casa, criando planos de treino adaptados ao seu equipamento doméstico e aos seus objectivos. E se tiver curiosidade em saber quantas calorias tem a refeição que está prestes a comer, o GPT-V ajuda-o. Um utilizador partilhou com alegria: “OK ChatGPT 4.0 com novas funcionalidades de visão… reconhece tudo. Até uma foca na praia. “
OK ChatGPT 4.0 com novas funcionalidades de visão é bastante incrível.
Aqui pergunto-lhe quantas calorias tem o taco de peixe que acabei de comer.
É incrível ver como ele reconhece tudo. Até uma foca na praia. pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) 5 de outubro de 2023
Entusiastas do design de interiores, alegrem-se! A IA oferece agora sugestões de design e pode incorporar preferências pessoais. Imagine um espaço de vida que grita “você”, sem os elevados custos de um designer. Basta tirar uma fotografia do seu quarto horrível e pedir sugestões à GPT-V para o transformar no paraíso que deseja.
Problemas com os trabalhos de casa? Basta fazer uma captura de ecrã do trabalho e o GPT-V assume o papel daquele colega de turma prestável que sempre desejou que estivesse ao seu lado.
Os miúdos nunca mais vão fazer trabalhos de casa. pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) 27 de setembro de 2023
O
ChatGPT explica este diagrama de uma célula humana a um aluno do 9º ano.
Este é o futuro da educação. pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) 28 de setembro de 2023
E para os geeks das finanças entre nós, o GPT-V não se trata apenas de diversão e jogos. O GPT-V pode mergulhar fundo na análise técnica. Basta inserir uma captura de tela de seu estoque ou criptografia favorito (ou mais odiado), e ele analisará seu gráfico e fará as projeções de acordo. Lembre-se que não se trata de aconselhamento financeiro – e se acabar pobre, nenhuma IA o tornará rico.
ESTÁ TUDO ACABADO PARA OS TA-OOOOORS
Dei ao GPT-V uma imagem do meu gráfico para o $UBER com uma série de indicadores e deu boas entradas longas. Vou testá-lo ao vivo.
Tópico abaixo! pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) October 11, 2023
O surgimento de LLMs multimodais está a redefinir as indústrias. Com a evolução dos titãs da IA, o GPT-V é apenas a ponta do icebergue. Há rumores de que o próximo Gemini do Google superará o Bard com sua proeza multimodal. O NexT-GPT oferece uma alternativa de código aberto, e o horizonte promete modelos treinados para fazer malabarismos com palavras, sons, vídeos e imagens.
Estes avanços não são apenas tecnobablismo – têm implicações que podem remodelar as nossas interacções diárias, as nossas profissões e talvez até a nossa visão do mundo. E enquanto a OpenAI é pioneira com o GPT-V, os concorrentes não estão muito atrás. Poderemos estar à beira de um renascimento da IA?
Bem, se ainda estiver a utilizar a IA apenas para conversar, pode já estar a ficar para trás. A IA pode ler e ver, e ganha mais capacidades todos os dias.
O GPT-V também pode estragar a diversão de um livro “Onde está o Waldo? Porque é que alguém quereria isto? Este é o território do ChaosGPT.
“Encontrei-o!” pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) 29 de setembro de 2023