Home » Más allá de ChatGPT: NExT-GPT es un modelo de código abierto que permite dominar la IA con audio, vídeo y texto

Más allá de ChatGPT: NExT-GPT es un modelo de código abierto que permite dominar la IA con audio, vídeo y texto

by Tim

En una floreciente escena tecnológica dominada por gigantes como OpenAI y Google, NExT-GPT -un modelo de lenguaje amplio (LLM) de IA multimodal de código abierto- podría tener lo que hace falta para competir en las grandes ligas.

ChatGPT sorprendió al mundo con su capacidad para entender consultas en lenguaje natural y generar respuestas similares a las humanas. Pero a medida que la IA sigue avanzando a la velocidad del rayo, la gente ha exigido más potencia. La era del texto puro ya ha terminado, y llegan los LLM multimodales.

NExT-GPT, desarrollado gracias a la colaboración entre la Universidad Nacional de Singapur (NUS) y la Universidad de Tsinghua, puede procesar y generar combinaciones de texto, imágenes, audio y vídeo. Esto permite interacciones más naturales que los modelos de sólo texto, como la herramienta básica ChatGPT.

El equipo que lo creó presenta NExT-GPT como un sistema «cualquiera-a-cualquiera», es decir, que puede aceptar entradas en cualquier modalidad y dar respuestas en la forma apropiada.

El potencial de avance rápido es enorme. Como modelo de código abierto, NExT-GPT puede ser modificado por los usuarios para adaptarlo a sus necesidades específicas. Esto podría llevar a mejoras espectaculares más allá del original, de forma muy parecida a lo que ocurrió con Stable Diffusion frente a su lanzamiento inicial. Democratizar el acceso permite a los creadores dar forma a la tecnología para obtener el máximo impacto.

¿Cómo funciona NExT-GPT? Como se explica en el documento de investigación del modelo, el sistema tiene módulos separados para codificar entradas como imágenes y audio en representaciones similares al texto que el modelo lingüístico central puede procesar.

Los investigadores introdujeron una técnica llamada «ajuste de instrucciones de cambio de modalidad» para mejorar la capacidad de razonamiento intermodal, es decir, su capacidad de procesar distintos tipos de entradas como una estructura coherente. Este ajuste enseña al modelo a cambiar sin problemas de una modalidad a otra durante las conversaciones.

Para gestionar las entradas, NExT-GPT utiliza tokens únicos para imágenes, audio y vídeo. Cada tipo de entrada se convierte en incrustaciones que el modelo lingüístico entiende. A continuación, el modelo de lenguaje puede emitir texto de respuesta, así como tokens de señales especiales para activar la generación en otras modalidades.

Por ejemplo, una señal en la respuesta indica al descodificador de vídeo que produzca la salida de vídeo correspondiente. El uso de tokens adaptados a cada modalidad de entrada y salida permite una conversión flexible de cualquiera a cualquiera.

A continuación, el modelo lingüístico emite tokens especiales para indicar cuándo deben generarse salidas no textuales, como imágenes. A continuación, distintos descodificadores crean los resultados para cada modalidad: Stable Diffusion como decodificador de imágenes, AudioLDM como decodificador de audio y Zeroscope como decodificador de vídeo. También utiliza Vicuna como LLM de base e ImageBind para codificar las entradas.

NExT-GPT es básicamente un modelo que combina la potencia de distintas IAs para convertirse en una especie de super IA todo en uno.

Captura de pantalla cortesía de: AI Papers Academy via YouTube

Captura de pantalla cortesía de: AI Papers Academy via YouTube


NExT-GPT consigue esta flexible conversión «cualquiera-a-cualquiera» entrenando sólo el 1% del total de parámetros. El resto de los parámetros son módulos congelados y preentrenados, lo que ha merecido los elogios de los investigadores por su eficacia.

Se ha creado un sitio de demostración para probar NExT-GPT, pero su disponibilidad es intermitente.

Con gigantes tecnológicos como Google y OpenAI lanzando sus propios productos de IA multimodal, NExT-GPT representa una alternativa de código abierto en la que pueden basarse los creadores. La multimodalidad es clave para las interacciones naturales. Y al abrir NExT-GPT, los investigadores proporcionan un trampolín para que la comunidad lleve la IA al siguiente nivel.

Related Posts

Leave a Comment