Home » OpenAI actualiza ChatGPT: El chatbot de IA ahora puede “ver, oír y hablar”

OpenAI actualiza ChatGPT: El chatbot de IA ahora puede «ver, oír y hablar»

by Patricia

OpenAI ha desplegado unas actualizaciones muy esperadas que permitirán a su popular chatbot ChatGPT interactuar con imágenes y voces. Este lanzamiento representa un gran paso hacia la visión de OpenAI de una inteligencia general artificial capaz de percibir y procesar información de múltiples modos, no sólo texto.

«Estamos empezando a desplegar nuevas capacidades de voz e imagen en ChatGPT. Ofrecen un tipo de interfaz nuevo y más intuitivo al permitir mantener una conversación de voz o mostrar a ChatGPT de qué se está hablando», afirma OpenAI en la entrada de su blog oficial.

OpenAI dijo que el nuevo ChatGPT-Plus incluirá chat de voz impulsado por un novedoso modelo de texto a voz capaz de imitar voces humanas, y la capacidad de discutir imágenes gracias a la integración con los modelos de generación de imágenes de la compañía. Las nuevas funciones parecen formar parte de lo que se conoce como GPT Vision (o GPT-V, que a menudo se confunde con un teórico GPT-5) y representan componentes clave de la versión multimodal mejorada de GPT-4 que OpenAI anunció a principios de año.

Esta actualización llega justo después de que OpenAI presentara DALL-E 3, su generador de texto a imagen más avanzado hasta la fecha. Aclamado como «una locura» por los primeros usuarios debido a su calidad y precisión, DALL-E 3 puede crear imágenes de alta fidelidad a partir de mensajes de texto, al tiempo que comprende contextos y conceptos complejos expresados en lenguaje natural. Se integrará en ChatGPT Plus, un servicio de suscripción que ofrece un ChatGPT basado en GPT-4.

La integración de DALL-E 3 y el chat de voz conversacional significa el impulso de OpenAI hacia asistentes de IA que puedan percibir el mundo más como lo hacen los humanos: con múltiples sentidos. Según la empresa: «La voz y la imagen te ofrecen más formas de utilizar ChatGPT en tu vida. Haz una foto de un punto de interés mientras viajas y mantén una conversación en directo sobre lo que te parece interesante».

Microsoft impulsa la carrera de la IA con la integración de OpenAI

Microsoft, el mayor patrocinador de OpenAI, también sigue adelante con la integración de las avanzadas capacidades de IA generativa de OpenAI en sus propios productos de consumo. En su reciente evento de otoño, Microsoft anunció mejoras de IA en Windows 11, Office y la búsqueda Bing, aprovechando modelos como DALL-E 3 (en programas de retoque de imágenes como el renovado Paint de Microsoft) y Copilot, el asistente de programación de OpenAI.

Esto concuerda con la inversión de más de 10.000 millones de dólares de Microsoft en OpenAI, ya que su objetivo es liderar la carrera de los asistentes de IA. El debut de Copilot en Windows 11 el 26 de septiembre promete hacer que la ayuda de la IA esté disponible en todas las plataformas y dispositivos de Microsoft. Mientras tanto, Microsoft 365 Chat aplica la destreza del lenguaje natural de OpenAI para automatizar tareas de trabajo complejas.

Como informó anteriormente TCN, Microsoft dijo que «Microsoft 365 Chat peina todo tu universo de datos en el trabajo, incluyendo correos electrónicos, reuniones, chats, documentos y más, además de la web».

Pasos prudentes hacia una IA responsable

Sin embargo, OpenAI es muy consciente de los riesgos potenciales que entrañan los sistemas de IA multimodal más potentes que implican la visión y la generación de voz. La suplantación de identidad, la parcialidad y la dependencia de la interpretación visual son preocupaciones clave.

«El objetivo de OpenAI es crear una inteligencia artificial segura y beneficiosa», afirma la empresa en su comunicado. «Creemos que nuestras herramientas deben estar disponibles de forma gradual, lo que nos permite introducir mejoras y perfeccionar la mitigación de riesgos a lo largo del tiempo, a la vez que preparamos a todo el mundo para sistemas más potentes en el futuro».

También, como TCN informó anteriormente, OpenAI está reuniendo un equipo rojo para trabajar en formas de prevenir consecuencias perjudiciales debido al uso inadecuado de sus productos de IA. El CEO Sam Altman también ha estado presionando en todo el mundo para conseguir una legislación favorable.

OpenAI dijo que los usuarios Plus y Enterprise tendrán acceso a estas nuevas funcionalidades en las próximas dos semanas, con planes para ampliar la disponibilidad a los desarrolladores después. Y con Google anunciando también su propio y revolucionario LLM multimodal, Gemini, la carrera por dominar la industria de la IA no ha hecho más que empezar

Related Posts

Leave a Comment