En un evento de alto nivel sobre IA celebrado en Londres, los ejecutivos de Meta ofrecieron el martes la primera confirmación oficial y los primeros detalles sobre el inminente lanzamiento de Llama 3, la muy esperada próxima iteración del modelo de gran lenguaje de código abierto de la compañía.
«En el próximo mes, o incluso en menos tiempo, esperamos empezar a desplegar nuestro nuevo conjunto de modelos básicos de próxima generación, Llama 3», anunció Nick Clegg, presidente de asuntos globales de Meta, en el Meta AI Day de Londres, informó TechCrunch.
Según Clegg, Llama 3 consiste en «una serie de modelos diferentes con distintas capacidades y versatilidades» que comenzarán a desplegarse a lo largo de este año.
Una vez que se lance, se espera que Llama 3 sea el modelo de código abierto más avanzado disponible, con Meta invirtiendo fuertemente en su desarrollo. Según Meta, el modelo se ha entrenado con 140.000 millones de parámetros, el doble que Llama 2. Mark Zuckerburg, CEO de Meta, ya había adelantado algunos detalles técnicos en enero.
«Estamos construyendo una infraestructura de computación masiva para respaldar nuestra hoja de ruta futura, que incluye 350.000 H100 para finales de este año y, en total, casi 600.000 H100 equivalentes de computación si se incluyen otras GPU», declaró Zuckerberg en aquel momento. Esta cantidad de potencia de cálculo es significativamente superior a la utilizada por OpenAI para entrenar GPT-4, que se estimó que requeriría unas 25.000 GPU en 90 o 100 días.
Zuckerberg también ha desvelado que Meta AI, su asistente de inteligencia artificial, utilizará Llama 3.
Chris Cox, Director de Producto, ha declarado que Llama 3 se integrará en Meta.
«Nuestro plan será que Llama 3 impulse varios productos y experiencias diferentes en toda nuestra familia de aplicaciones», dijo.
La estrategia del código abierto
El impacto del lanzamiento de Llama 3 va mucho más allá de Meta, dado el compromiso filosófico de la empresa de desarrollarlo como un modelo de código abierto, en claro contraste con el enfoque cerrado y propietario adoptado por rivales como OpenAI con ChatGPT.
Al abrir sus modelos lingüísticos, Meta pretende alimentar un ecosistema de desarrollo de IA abierto y posicionar a la familia Llama como base para una amplia gama de herramientas y aplicaciones creadas por desarrolladores e investigadores externos.
«Es muy importante darse cuenta de que las innovaciones siempre se basan en contribuciones previas de otros, a veces muy similares», tuiteó el mes pasado Yann LeCun, responsable de investigación en IA de Meta. «Por eso es tan importante la investigación abierta: hace que el campo avance más rápido para todos».
Desde la distancia, parece que las innovaciones surgen espontáneamente del vacío.
Pero es muy importante darse cuenta de que las innovaciones siempre se basan en contribuciones previas de otros, a veces muy similares.
Por eso es tan importante la investigación abierta: hace que el campo… https://t.co/JMvQD2h5OZ– Yann LeCun (@ylecun) 20 de marzo de 2024
Este espíritu abierto ya ha generado una vibrante comunidad en torno a Llama. Algunos de los modelos lingüísticos de código abierto más avanzados en la actualidad, como Mistral, Falcon y Beluga, se han creado a partir del perfeccionamiento del anterior modelo básico Llama 2. Varios de estos modelos comunitarios han igualado o superado a GPT-3.5 en determinadas pruebas de referencia.
La publicación de Llama-3 como otro modelo fundacional de código abierto allana probablemente el camino para una nueva generación de LLM que subirán aún más el listón en términos de calidad y eficiencia en IA.
Eh, creo que el código abierto igualará o superará este año. pic.twitter.com/y99qKJ2iKF
– Ryan Casey (@ryansweb) 1 de enero de 2024
W
Desafiando el dominio de OpenAI
La premisa de código abierto de Llama 3 plantea un desafío formidable y de múltiples capas al actual dominio del mercado de OpenAI y, por extensión, a otros modelos propietarios como Claude y Gemini.
La comunidad de código abierto pronto podrá basarse en Llama 3 e iterar rápidamente sus variaciones para igualar o superar potencialmente las capacidades de GPT-4, al igual que hicieron contra GPT-3.5. Con unos costes de formación más bajos y compartidos por todos los colaboradores, el ecosistema abierto podría dejar atrás el desarrollo del modelo propietario de OpenAI, que requiere inmensos recursos y costes informáticos.
Si las ofertas de código abierto alcanzan regularmente la paridad con las ofertas comerciales, las empresas podrían gravitar hacia ecosistemas más accesibles y rentables como Llama, en lugar de depender y pagar por OpenAI. Actualmente, GPT-4 es el modelo más caro del mercado en términos de coste por token.
Además, la comunidad de código abierto se fortalece a medida que más gente se involucra en ella. Meta se beneficia de tener una enorme comunidad que construye sobre el modelo, lo perfecciona, desarrolla nuevas tecnologías y lo mejora de forma gratuita. Esto facilita a Meta el desarrollo de mejores versiones de su modelo, al tiempo que lo monetiza a través de esquemas alternativos como la concesión de licencias para su uso comercial por parte de grandes industrias.
En otras palabras, la inercia continuada y los efectos de red podrían dificultar que los modelos propietarios de OpenAI atraigan a usuarios y clientes en el futuro.
Sin duda, OpenAI lleva actualmente una gran ventaja en términos de rentabilidad. Anthropic puede presumir de tener el LLM con mejor rendimiento en el espacio de la IA. Pero Llama 3 representará otro golpe estratégico de Meta para trastornar el panorama de la IA generativa.
Por supuesto, mucho depende del rendimiento de Llama 3 en el mundo real y de su adopción durante el próximo año. Pero la comunidad de IA de código abierto es bastante activa y ya adora Llama-2. Las cosas se pondrán muy interesantes en los próximos meses, especialmente con la GPT-5 de OpenAI a la vuelta de la esquina.