Home » Más allá de Bard: Google lanza Gemini, una IA multimodal que desafía al chatGPT

Más allá de Bard: Google lanza Gemini, una IA multimodal que desafía al chatGPT

by Tim

Google sorprendió al mundo de la tecnología el miércoles con el debut de Gemini, su suite de herramientas de inteligencia artificial multimodal para consumidores y empresas.

Entre los gigantes tecnológicos que se lanzan agresivamente a la IA, el titán de las búsquedas Google parecía nadar en el espacio intermedio, mientras OpenAI, respaldada por Microsoft, impulsaba ChatGPT a Turbo y Vision y Anthropic actualizaban Claude. A partir de hoy, Google sale por la puerta grande con tres versiones de Gemini (Nano, Pro y Ultra), que comprenden e integran a la perfección texto, imágenes, audio y vídeo.

Gemini parece estar en condiciones de superar a los modelos de IA de gama alta de OpenAI, que acaba de publicar una lista de nuevas capacidades pero que poco después quedó enterrada en intrigas corporativas.

La versión más avanzada, Gemini Ultra, obtuvo excelentes resultados en varias pruebas de referencia populares, igualando o superando el rendimiento humano en algunos casos. Por ejemplo, batió récords en 30 de las 32 pruebas del examen MMLU, que abarca diversas materias académicas.

Una característica clave de Gemini es su entrenamiento «multimodal nativo», que le permite procesar múltiples tipos de datos como texto, imágenes y audio como entradas y salidas. Este enfoque significa que el modelo se construyó y se entrenó desde cero para comprender distintas entradas, en lugar de ser el resultado de unir modos y módulos discretos posteriormente.

Las IA multimodales más populares de la actualidad siguen esta última hoja de ruta. Por ejemplo, ChatGPT combina GPT-4 Turbo con Dall-E 3 para procesar texto y generar imágenes, GPT-4 Vision para procesar imágenes y un módulo de codificación especial para cálculos. Como resultado, el LLM queda relegado al papel de coordinador entre diferentes modelos de IA que no pueden comprender de forma independiente la naturaleza completa de un problema específico.

Esta limitación también puede dar lugar a vulnerabilidades como la inyección puntual. Por ejemplo, las técnicas para eludir los controles de seguridad establecidos para las indicaciones de texto escribiéndolas o imprimiéndolas en un trozo de papel, haciéndoles una foto y pidiendo al módulo visual que las procese.

Google Gemini obtiene excelentes resultados en pruebas de IA. Imagen: Google

Google Gemini obtiene excelentes resultados en pruebas de IA. Imagen: Google


En cambio, las primeras evaluaciones cualitativas de Gemini revelan su notable capacidad para realizar razonamientos intermodales. Por ejemplo, en entornos educativos, Gemini puede entender problemas complejos de física, convertirlos en fórmulas matemáticas y proporcionar soluciones correctas. Esta capacidad abre vías de transformación en la educación y en otros campos.

Los LLM tradicionales no suelen ser muy buenos en matemáticas, por lo que las capacidades de razonamiento de la familia Gemini de LLM multimodales merecen cierta atención.

En otra prueba de referencia centrada en la comprensión del lenguaje multimodal, Gemini Ultra obtuvo una precisión superior al 90%, superando a otros modelos existentes. Google afirma que las pruebas de preferencia humana también mostraron una clara preferencia por Gemini frente a modelos como PaLM 2 en áreas como la escritura creativa.

El servicio más pequeño, Gemini Nano, está diseñado para la eficiencia en el dispositivo, destacando en resumen, comprensión lectora y diversas tareas de razonamiento. A pesar de su menor tamaño, Gemini Nano muestra un rendimiento notable en comparación con el modelo Gemini Pro, de mayor tamaño. Esto significa que Gemini podría convertirse en la IA preferida para los asistentes móviles que pueden o deben trabajar sin conexión.

Gemini parece un debut muy fuerte, se mire por donde se mire. Y a medida que se mejoren las capacidades de la IA de Google, su versatilidad podría permitir nuevas aplicaciones en muchos ámbitos. Por ahora, sin embargo, se necesitan más pruebas en el mundo real para determinar sus niveles de rendimiento realistas.

Los usuarios pueden probar hoy mismo una versión perfeccionada de Gemini Pro con Bard. Gemini Ultra se lanzará el año que viene en una nueva versión del chatbot de Google llamada Bard Advanced. En última instancia, Google espera lanzar Gemini en más de 170 idiomas diferentes y utilizar la tecnología para impulsar su Pixel Lineup y la Search Generative Experience.

Related Posts

Leave a Comment