Home » Incluso la peor versión de Claude AI es mejor que GPT 3.5, según los investigadores

Incluso la peor versión de Claude AI es mejor que GPT 3.5, según los investigadores

by Patricia

La industria de la IA está siendo testigo de una apasionante competición entre los notables modelos ChatGPT y Claude AI. La Large Model Systems Organization (LMSO), responsable de la creación del Chatbot Arena y del renombrado modelo Vicuna, acaba de actualizar su Chatbot Arena Leaderboard, que refleja cómo cada chatbot de IA se mide con sus competidores. Resulta que Anthropic le está ganando la partida a OpenAI, aunque sus modelos sigan siendo de uso gratuito.

GPT-4, el motor detrás de ChatGPT Plus y Bing AI, reina supremo con la puntuación más alta, estableciendo el estándar de oro para los grandes modelos lingüísticos (LLM). Sin embargo, a medida que descendemos en la clasificación, aparece un inesperado perdedor. Los modelos Claude de Anthropic (Claude 1, Claude 2 y Claude Instant) superan a GPT-3.5, el motor de la versión gratuita de ChatGPT. Esto implica que todos los Grandes Modelos Lingüísticos desarrollados por Anthropic pueden superar a la versión gratuita de ChatGPT.

El meticuloso sistema de clasificación de la LMSO permitió conocer las métricas de rendimiento de estos modelos. Según la clasificación, GPT-4 tiene una puntuación Arena Elo de 1181, lo que le sitúa a la cabeza de la tabla, mientras que los modelos Claude le siguen de cerca con puntuaciones que oscilan entre 1119 y 1155. GPT-3.5, por su parte, se queda rezagado con una puntuación de 1115.

Para clasificar los modelos, la LMSO los hace «batirse» en partidos con indicaciones similares. El modelo con la mejor respuesta gana y el otro pierde. Los usuarios deciden quién gana en función de sus preferencias, pero nunca saben qué modelos compiten.

Imagen: LMSO

Imagen: LMSO


Como TCN informó anteriormente, la diferencia en las capacidades de procesamiento de tokens entre ChatGPT Plus y Claude Pro, aunque no es un factor en la clasificación LMSO, también es una ventaja importante que los modelos Claude tienen sobre GPT.

«Claude Pro, basado en el LLM Claude 2, puede procesar hasta 100.000 tokens de información, mientras que ChatGPT Plus, impulsado por el LLM GPT-4, maneja 8.192 tokens», recordamos. Esta diferencia en la capacidad de procesamiento de tokens subraya la ventaja de los modelos Claude a la hora de gestionar entradas contextuales extensas, lo que es crucial para una experiencia de usuario matizada y enriquecida.

Además, Claude 2 ha demostrado superioridad sobre GPT a la hora de procesar instrucciones largas, ya que gestiona las de mayor magnitud de forma más eficiente. Sin embargo, cuando las instrucciones son comparables, Claude 1 y Claude Instant ofrecen resultados similares o ligeramente mejores que GPT-3.5, lo que demuestra la naturaleza competitiva de estos modelos. Gracias a las capacidades contextuales de Claude, una respuesta inicial pobre puede mejorarse drásticamente con una indicación más refinada, amplia y rica.

Los modelos de código abierto no se quedan atrás en esta carrera.

WizardLM, un modelo entrenado en LlaMA-2 de Meta con 70.000 millones de parámetros, destaca como el mejor LLM de código abierto. Le siguen de cerca Vicuna 33B y el LlaMA-2 original, publicado por Meta.

Los modelos de código abierto desempeñan un papel importante en el desarrollo del espacio de la IA por diferentes razones. Pueden ejecutarse localmente, lo que da a los usuarios la oportunidad de afinarlos y compromete a la comunidad en un esfuerzo colectivo por perfeccionar el modelo. También son más baratos de ejecutar debido a sus licencias, razón por la cual el espacio cuenta con docenas de LLM de código abierto y sólo un puñado de modelos propietarios.

Pero el juego de los chatbots de IA no es sólo cuestión de números. Se trata de las implicaciones en el mundo real.

A medida que los chatbots se integran en diversos sectores, desde la atención al cliente hasta los asistentes personales, su eficacia, adaptabilidad y precisión pasan a ser primordiales. Con los modelos Claude por encima de GPT-3.5, las empresas y los usuarios individuales pueden encontrarse en una encrucijada, evaluando qué modelo se alinea mejor con sus necesidades. TCN ha preparado dos guías para ayudarle a decidir qué modelo le conviene más.

Para los no iniciados, esto puede parecer una actualización más de la tabla de clasificación. Pero para los que siguen de cerca la industria de la IA, es un testimonio de lo feroz que es la competencia y de lo rápido que pueden cambiar las tornas. Y para el resto de nosotros, que nos encontramos entre esos dos bandos, es un recordatorio de que en el mundo de la IA, el modelo más popular de hoy podría caer ante el más eficiente.

Related Posts

Leave a Comment