Aunque la IA irrumpió en escena a través de chatbots a veces inquietantemente inteligentes, las interacciones basadas en texto ya están pasadas de moda. El anuncio de la actualización GPT-4 de OpenAI introdujo GPT-Vision (GPT-V), la última maravilla de la IA multimodal. El anuncio se ha hecho realidad ahora que los usuarios tienen por fin la oportunidad de probar todo el potencial de sus capacidades.
Un gran modelo lingüístico multimodal (LLM) significa que puede interactuar no sólo con la palabra escrita, sino también a través de otros modos. En este caso, el nuevo GPT-V puede entender imágenes y trabajar con ellas. Además, gracias a la nueva herramienta de arte generativo DALL-E 3, ChatGPT puede tanto tomar imágenes como entrada como generar imágenes como salida.
Estas nuevas funciones han levantado ampollas en el mundo de la tecnología a medida que los usuarios las ponen a prueba. ¿Pueden descifrar documentos gubernamentales sobre avistamientos de ovnis? Sí. «ChatGPT-4V Multimodal descifra un documento gubernamental redactado sobre un avistamiento de ovnis publicado por la NASA», se lee en un tuit. «Quizá la verdad no esté ahí fuera; está aquí mismo, en GPT-V».
ChatGPT-4V Multimodal decodifica un documento gubernamental redactado sobre un avistamiento OVNI publicado por la NASA.
He probado esto en 100s de documentos redactados y puedo decir que estamos en un mundo nuevo. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) 6 de octubre de 2023
Intentar rellenar huecos en una cadena de texto es básicamente lo que hacen los LLM. El usuario hizo lo siguiente mejor al intentar probar las capacidades de GPT-V e hizo que adivinara partes de un texto que él censuró. «Casi un 100% de precisión en la intención», informó.
Por supuesto, es difícil verificar si su suposición de lo que está oculto es exacta, no es como si pudiéramos preguntar a la CIA lo bien que lo hizo mirando a través de las líneas negras.
Incluso más difícil que descubrir información censurada por el gobierno es intentar entender la críptica letra de tu médico. Pero GPT-V puede descifrar los garabatos. Con una amable indicación, GPT-V puede dar sentido incluso a las notas médicas más indescifrables, asegurándose de que «tome dos pastillas» no se convierta en «hornee gofres azules».
ChatGPT-4V Multimodal.
Preguntar: «Por favor, decodifique este documento. Pensemos paso a paso. Es vital ser preciso. Gracias». pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) 6 de octubre de 2023
Pero ten cuidado. A veces, incluso la IA más avanzada falla contra las manos de un médico experimentado -o artrítico-, y puede que haga falta un experto para descifrar esos enigmas escritos.
Y para quienes no confían en sus médicos, ChatGPT puede ofrecer una segunda opinión al instante. El modelo puede entender radiografías y ofrecer análisis y perspectivas sobre casos médicos concretos.
Caso de uso infravalorado de ChatGPT Vision.
Se necesitan 13 años de formación para ser radiólogo.
Ahora, en lugar de redactar un informe desde cero, probablemente solo necesiten revisar el diagnóstico de AI. pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) 2 de octubre de 2023
¿Pero por qué detenerse en la escritura a mano y los escáneres corporales? GPT-V se ha convertido en el último gurú del fitness doméstico, con planes de entrenamiento adaptados a tu equipamiento y objetivos. Y si tienes curiosidad por saber cuántas calorías hay en esa comida que estás a punto de tomar, GPT-V te cubre las espaldas. Un usuario compartió alegremente: «OK ChatGPT 4.0 con nuevas funciones de visión… lo reconoce todo. Incluso una foca en la playa».
OK ChatGPT 4.0 con nuevas funciones de visión es bastante increíble.
Aquí le pregunto cuántas calorías tiene el taco de pescado que me acabo de comer.
Es increíble ver cómo lo reconoce todo. Incluso una foca en la playa. pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) 5 de octubre de 2023
¡Alegres, entusiastas del diseño de interiores! La IA ofrece ahora sugerencias de diseño y puede incorporar preferencias personales. Imagínate un espacio vital que grite «tú», sin los elevados honorarios de un diseñador. Sólo tienes que hacer una foto de tu horrible habitación y pedir sugerencias a GPT-V para convertirla en el paraíso que deseas.
¿Problemas con los deberes? Haz una captura de pantalla de la tarea y GPT-V se convertirá en ese compañero de clase que siempre deseaste tener a tu lado.
Los niños nunca volverán a hacer los deberes. pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) September 27, 2023
ChatGPT desglosa este diagrama de una célula humana para un alumno de 9º curso.
Este es el futuro de la educación. pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) 28 de septiembre de 2023
Y para los frikis de las finanzas, GPT-V no es sólo diversión y juegos. GPT-V puede profundizar en el análisis técnico. Basta con introducir una captura de pantalla de su acción o cripto favorito (o más odiado), y se analizará el gráfico y hacer proyecciones en consecuencia. Recuerda que no se trata de asesoramiento financiero y que, si acabas pobre, ninguna inteligencia artificial te hará rico.
SE ACABÓ PARA TA-OOOOORS
Le di GPT-V una imagen de mi gráfico para $UBER con un montón de indicadores y dio buenas entradas largas. Lo probaré en vivo.
¡Hilo de abajo! pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) October 11, 2023
El amanecer de los LLM multimodales está redefiniendo las industrias. Con la evolución de los titanes de la IA, GPT-V es sólo la punta del iceberg. Se rumorea que el próximo Gemini de Google superará a Bard con su destreza multimodal. NexT-GPT ofrece una alternativa de código abierto, y el horizonte promete modelos entrenados para hacer malabarismos con palabras, sonidos, vídeos e imágenes.
Estos avances no son mera palabrería tecnológica: tienen implicaciones que podrían remodelar nuestras interacciones cotidianas, nuestras profesiones y quizá incluso nuestra visión del mundo. Y mientras OpenAI es pionera con GPT-V, sus competidores no se quedan atrás. ¿Podríamos estar al borde de un renacimiento de la IA?
Bueno, si sigues utilizando la IA sólo para chatear, puede que ya te estés quedando atrás. La IA puede leer y ver, y cada día tiene más capacidades.
GPT-V también puede arruinar la diversión de un libro de «¿Dónde está Waldo? ¿Por qué alguien querría esto? Esto es territorio ChaosGPT.
«¡Lo encontré!» pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) 29 de septiembre de 2023